CN111445905A

CN111445905A - 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质

Info

Publication number: CN111445905A
Application number: CN201910746274.8A
Authority: CN
Inventors: 王珺; 陈杰; 苏丹; 俞栋
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-05-24
Filing date: 2018-05-24
Publication date: 2020-07-24
Anticipated expiration: 2038-05-24
Also published as: US11996091B2; CN110797021B; JP2021516369A; CN111445905B; EP3806089B1; WO2019223457A1; EP3806089A4; US20200372905A1; CN108962237B; CN110797021A; CN108962237A; EP3806089A1; JP7177167B2

Abstract

本申请提供了混合语音识别网络训练方法，包括：通过混合语音识别网络中的深度神经网络获取混合语音样本，通过混合语音识别网络对混合语音样本的向量和相应的有监督标注进行处理，形成目标对象在向量空间的语音提取子；通过混合语音识别网络，利用混合语音样本的向量和语音提取子确定目标对象的掩码；通过目标对象的掩码与目标对象的参考语音对混合语音识别网络的参数进行更新。本申请还提供了混合语音识别方法、装置及存储介质。本申请可从混合语音中确定出目标对象的语音，方便对混合语音中目标对象的语音进行追踪，同时在混合语音识别网络训练过程中仅需要混合语音样本有效减少了训练阶段的样本数量，提升了混合语音识别网络的训练效率。

Description

混合语音识别网络训练方法、混合语音识别方法、装置及存储介质

分案说明

本申请基于申请号为：201810507294.5、申请日为2018年05月24日、发明名称为：混合语音识别方法、装置及计算机可读存储介质的中国专利申请提出，在该中国专利申请记载的范围内提出分案，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本申请属于语音识别技术领域，具体涉及一种混合语音识别网络训练方法、混合语音识别方法、装置及存储介质。

背景技术

语音作为语言的声学表现，是人类交流信息最自然、最有效和最方便的手段之一，近年来，语音识别技术获得了巨大的进展，然而，由于人们在输入语音的同时，不可避免地会收到同一环境中的不同说话人的话音干扰。这些干扰最终使得采集到的语音并非纯净的语音，而是受到噪声污染的语音(即混合语音)。近年来，很多基于深度学习的方法和系统被开发出来处理混合语音信号的分离和识别，如深度吸引网络。为此，人工智能技术(AI，Artificial Intelligence)提供了训练适当的语音识别网络来支持上述应用的方案。其中，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能，在语音处理领域中，也就是通过利用数字计算机或者数字计算机控制的机器实现对语音的识别。

深度吸引子网络(即Deep Attractor Network)为混合语音的每个时频窗口生成区分性的嵌入向量，并为混合语音中的每个说话人生成一个吸引子，然后通过计算嵌入向量离这些吸引子的距离来估计对应的时频窗口归属于相应说话人的掩码(即Mask),之后利用这些Mask计算得到混合语音中每个说话人在时频域中的表示。基于深度吸引子网络的混合语音识别方案的系统框架可图1 所示，下面结合图1对该方案的处理流程进行说明：

首先将混合语音频谱(即图1中的Mixture)输入长短期记忆网络(即图1 中的LSTMlayer)，计算得到每个时频窗口对应的嵌入向量(即图1中的 Embedding)；然后，利用混合语音中各说话人的有监督的标注信息(即图1 中的Ideal mask)，对所有的嵌入向量作加权规整，得到对应各说话人的吸引子(即图1中的Attractors)；然后，通过衡量混合语音的各个嵌入向量与吸引子之间的距离，来估计各个说话人语音的Mask；利用这些Mask计算得到混合语音中每个说话人在时频域中的表示(即图1中的clean reference)。

虽然深度吸引子网络不硬性限定混合语音中说话人的数目，但是，它们在识别过程中仍然需要知道或估计说话人的数目。并且，基于深度吸引子网络的混合语音识别方案仅能实现对混合语音中各个说话人语音的分离，而无法追踪特定说话人(例如目标对象)的语音，即无法针对性地获得混合语音中目标对象在时频域中的表示。

发明内容

有鉴于此，本申请提供了一种混合语音识别网络训练方法、混合语音识别方法、装置及存储介质，可从混合语音中确定出目标对象的语音，方便对混合语音中目标对象的语音进行追踪。

本发明实施例提供了一种混合语音识别网络训练方法包括：

通过所述混合语音识别网络中的深度神经网络获取混合语音样本，其中，所述混合语音样本包括至少两个不同的说话人的语音；

所述深度神经网络确定与所述混合语音样本对应的混合语音样本的向量；

通过所述混合语音识别网络对所述混合语音样本的向量和相应的有监督标注进行处理，形成目标对象在向量空间的语音提取子；

通过所述混合语音识别网络，利用所述混合语音样本的向量和所述语音提取子确定所述目标对象的掩码；

通过所述目标对象的掩码与目标对象的参考语音对所述混合语音识别网络的参数进行更新。

上述方案中，所述通过所述语音识别网络的深度神经网络确定与所述混合语音样本对应的混合语音样本的向量，包括：

将所述混合语音样本嵌入到K维度的向量空间，得到所述混合语音样本中的各帧在各向量维度的向量，其中，

所述混合语音样本为在所述适应语音样本之后输入的非适应语音样本。

上述方案中，所述通过所述混合语音识别网络对所述混合语音样本的向量和相应的有监督标注进行处理，形成目标对象在向量空间的语音提取子，包括：

对所述混合语音样本中的低能量频谱窗口噪声进行除噪处理；

根据所述混合语音样本中目标对象的语音频谱幅度和相应语音帧中干扰对象的频谱幅度，确定所述混合语音样本中目标对象的有监督标注；

根据所述混合语音样本的向量和所述混合语音样本中目标对象的有监督标注确定所述混合语音样本中不同的说话人的语音在在向量空间中所对应的的语音提取子。

上述方案中，所述通过所述目标对象的掩码与目标对象的参考语音对所述混合语音识别网络的参数进行更新，包括：

根据所述混合语音样本中不同的说话人岁对应的掩码，提取混合语音样本中各个说话人的语音；

通过所述语音识别网络的目标函数，确定利用所述目标对象的掩码所提取的各个说话人的语音与目标对象的参考语音的频谱误差；

通过所述频谱误差，对所述语音识别网络的目标函数进行最小化处理，以实现更新所述混合语音识别网络的参数。

本申请实施例的第一方面提供了一种混合语音识别方法，包括：

监听语音的输入；

当监听到适应语音和混合语音的输入时，基于所述适应语音获取目标对象的语音特征；

基于所述目标对象的语音特征，确定所述混合语音中属于所述目标对象的语音；

其中，所述适应语音为包含预设语音信息的语音，所述混合语音为在所述适应语音之后输入的非适应语音。

基于本申请第一方面，在第一种可能的实现方式中，所述基于适应语音获取目标对象的语音特征包括：

将所述适应语音的频谱和所述混合语音的频谱分别嵌入到K维度的向量空间，得到所述适应语音各帧在各向量维度的向量以及所述混合语音各帧在各向量维度的向量，其中，所述适应语音为包含预设语音信息的语音，所述混合语音为在所述适应语音之后输入的非适应语音，所述K不小于1；

基于所述适应语音各帧在各向量维度的向量，计算所述适应语音在各向量维度的平均向量；

将所述适应语音在各向量维度的平均向量作为目标对象在各向量维度的语音提取子，分别衡量所述混合语音各帧在各向量维度的向量与相应向量维度的语音提取子之间的距离，以估计所述混合语音各帧的掩码；

所述基于所述目标对象的语音特征，确定所述混合语音中属于所述目标对象的语音为：

基于所述混合语音各帧的掩码，确定所述混合语音中属于所述目标对象的语音。

基于本申请第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述基于所述适应语音各帧在各向量维度的向量，计算所述适应语音在各向量维度的平均向量具体为：

基于所述适应语音有效帧在各向量维度的向量，计算所述适应语音在各向量维度的平均向量，其中，所述适应语音有效帧是指所述适应语音中频谱幅度大于适应频谱比较值的帧，所述适应频谱比较值等于所述适应语音的最大频谱幅度与预设频谱阈值之间的差值。

基于本申请第一方面的第二种可能的实现方式，在第三种可能的实现方式中，所述基于所述适应语音有效帧在各向量维度的向量，计算所述适应语音在各向量维度的平均向量，包括：

针对每个向量维度，将所述适应语音各帧在相应向量维度的向量分别乘以相应帧的有监督标注后求和，得到所述适应语音有效帧在相应向量维度的总向量；

将所述适应语音有效帧在各向量维度的总向量分别除以所述适应语音各帧的有监督标注之和，得到所述适应语音在各向量维度的平均向量；

其中，所述适应语音中频谱幅度大于适应频谱比较值的帧的有监督标注取 1，所述适应语音中频谱幅度不大于适应频谱比较值的帧的有监督标注取0。

基于本申请第一方面的第一种可能的实现方式，或者本申请第一方面的第二种可能的实现方式，或者本申请第一方面的第三种可能的实现方式，在第四种可能的实现方式中，所述基于所述适应语音各帧在各向量维度的向量，计算所述适应语音在各向量维度的平均向量之后还包括：

将所述适应语音在各向量维度的平均向量和所述混合语音各帧在各向量维度的向量输入预先训练好的前向神经网络，得到各帧在各向量维度的规整向量；

所述将所述适应语音在各向量维度的平均向量作为目标对象在各向量维度的语音提取子，分别衡量所述混合语音各帧在各向量维度的向量与相应向量维度的语音提取子之间的距离，以估计所述混合语音各帧的掩码替换为：

分别衡量所述各帧在各向量维度的规整向量与预设的语音提取子之间的距离，以估计得到所述混合语音各帧的掩码。

基于本申请第一方面的第一种可能的实现方式，或者本申请第一方面的第二种可能的实现方式，或者本申请第一方面的第三种可能的实现方式，在第五种可能的实现方式中，所述将所述适应语音的频谱和所述混合语音的频谱分别嵌入到K维度的向量空间之后还包括：

基于聚类算法对所述混合语音各帧在各向量维度的向量进行处理，以确定所述混合语音在各向量维度上对应不同说话人语音的质心向量；

所述将所述适应语音在各向量维度的平均向量作为目标对象在各向量维度的语音提取子替换为：

将所述混合语音在各向量维度的目标质心向量作为目标对象在相应向量维度的语音提取子，其中，所述目标质心向量为在同一向量维度与所述适应语音的平均向量距离最小的质心向量。

基于本申请第一方面的第一种可能的实现方式，或者本申请第一方面的第二种可能的实现方式，或者本申请第一方面的第三种可能的实现方式，在第六种可能的实现方式中，所述基于所述适应语音各帧在各向量维度的向量，计算所述适应语音在各向量维度的平均向量之后还包括：

分别比较预设的M个语音提取子与所述适应语音在各向量维度的平均向量之间的距离，其中，所述M大于1；

将所述M个语音提取子中，与所述适应语音在一向量维度的平均向量距离最小的语音提取子作为目标对象在相应向量维度的语音提取子。

基于本申请第一方面的第一种可能的实现方式，或者本申请第一方面的第二种可能的实现方式，或者本申请第一方面的第三种可能的实现方式，在第七种可能的实现方式中，所述将所述适应语音的频谱和所述混合语音的频谱分别嵌入到K维度的向量空间，得到所述适应语音各帧在各向量维度的向量以及所述混合语音各帧在各向量维度的向量具体为：

将所述适应语音的频谱和所述混合语音的频谱经深度神经网络映射到K维度的向量空间，得到所述适应语音各帧在各向量维度的向量以及所述混合语音各帧在各向量维度的向量。

基于本申请第一方面的第七种可能的实现方式，在第八种可能的实现方式中，所述深度神经网络由4层双向长短时记忆网络构成，每层双向长短时记忆网络有600个结点。

基于本申请第一方面的第七种可能的实现方式，在第九种可能的实现方式中，所述K取40。

本申请第二方面提供一种混合语音识别装置，包括：

监听单元，用于监听语音的输入；

获取单元，用于当所述监听单元监听到适应语音和混合语音的输入时，基于所述适应语音获取目标对象的语音特征；

确定单元，用于基于所述目标对象的语音特征，确定所述混合语音中属于所述目标对象的语音；

基于本申请第二方面，在第一种可能的实现方式中，所述获取单元包括：

空间映射单元，用于当所述监听单元监听到适应语音和混合语音的输入时，将所述适应语音的频谱和所述混合语音的频谱分别嵌入到K维度的向量空间，得到所述适应语音各帧在各向量维度的向量以及所述混合语音各帧在各向量维度的向量，其中，所述适应语音为包含预设语音信息的语音，所述混合语音为在所述适应语音之后输入的非适应语音，所述K不小于1；

计算单元，用于基于所述适应语音各帧在各向量维度的向量，计算所述适应语音在各向量维度的平均向量；

掩码估计单元，用于将所述适应语音在各向量维度的平均向量作为目标对象在各向量维度的语音提取子，分别衡量所述混合语音各帧在各向量维度的向量与相应向量维度的语音提取子之间的距离，以估计所述混合语音各帧的掩码；

所述确定单元具体用于基于所述混合语音各帧的掩码，确定所述混合语音中属于所述目标对象的语音。

基于本申请第二方面的第一种可能的实现方式，在第二种可能的实现方式中，所述计算单元具体用于：基于所述适应语音有效帧在各向量维度的向量，得到所述适应语音在各向量维度的平均向量，其中，所述适应语音有效帧是指所述适应语音中频谱幅度大于适应频谱比较值的帧，所述适应频谱比较值等于所述适应语音的最大频谱幅度与预设频谱阈值之间的差值。

基于本申请第二方面的第二种可能的实现方式，在第三种可能的实现方式中，所述计算单元具体用于：针对每个向量维度，将所述适应语音各帧在相应向量维度的向量分别乘以相应帧的有监督标注后求和，得到所述适应语音有效帧在相应向量维度的总向量；将所述适应语音有效帧在各向量维度的总向量分别除以所述适应语音各帧的有监督标注之和，得到所述适应语音在各向量维度的平均向量；

基于本申请第二方面的第一种可能的实现方式，或者本申请第二方面的第二种可能的实现方式，或者本申请第二方面的第三种可能的实现方式，，在第四种可能的实现方式中，所述混合语音识别装置还包括：

规整单元，用于将所述适应语音在各向量维度的平均向量和所述混合语音各帧在各向量维度的向量输入预先训练好的前向神经网络，得到各帧在各向量维度的规整向量；

所述掩码估计单元具体用于：分别衡量所述各帧在各向量维度的规整向量与预设的语音提取子之间的距离，以估计得到所述混合语音各帧的掩码。

基于本申请第二方面的第一种可能的实现方式，或者本申请第二方面的第二种可能的实现方式，或者本申请第二方面的第三种可能的实现方式，在第五种可能的实现方式中，所述混合语音识别装置还包括：

聚类单元，用于基于聚类算法对所述混合语音各帧在各向量维度的向量进行处理，以确定所述混合语音在各向量维度上对应不同说话人语音的质心向量；

所述掩码估计单元具体用于：将所述混合语音在各向量维度的目标质心向量作为目标对象在相应向量维度的语音提取子，分别衡量所述混合语音各帧在各向量维度的向量与相应向量维度的语音提取子之间的距离，以估计所述混合语音各帧的掩码。

基于本申请第二方面的第一种可能的实现方式，或者本申请第二方面的第二种可能的实现方式，或者本申请第二方面的第三种可能的实现方式，在第六种可能的实现方式中，所述混合语音识别装置还包括：

比较单元，用于分别比较预设的M个语音提取子与所述适应语音在各向量维度的平均向量之间的距离，其中，所述M大于1；

所述掩码估计单元具体用于：将所述M个语音提取子中，与所述适应语音在一向量维度的平均向量距离最小的语音提取子作为目标对象在相应向量维度的语音提取子，分别衡量所述混合语音各帧在各向量维度的向量与相应向量维度的语音提取子之间的距离，以估计所述混合语音各帧的掩码。

基于本申请第二方面的第一种可能的实现方式，或者本申请第二方面的第二种可能的实现方式，或者本申请第二方面的第三种可能的实现方式，在第七种可能的实现方式中，所述空间映射单元具体用于：当所述监听单元监听到适应语音和混合语音的输入时，将所述适应语音的频谱和所述混合语音的频谱经深度神经网络映射到K维度的向量空间，得到所述适应语音各帧在各向量维度的向量以及所述混合语音各帧在各向量维度的向量。

本申请第三方面提供一种混合语音识别装置，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序。该处理器执行上述计算机程序时实现上述第一方面或者上述第一方面的任一可能实现方式中提及的混合语音识别方法。

本申请第四方面提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序。上述计算机程序被处理器执行时实现上述第一方面或者上述第一方面的任一可能实现方式中提及的混合语音识别方法。

由上可见，本申请方案在监听到适应语音和混合语音的输入时，基于该适应语音获取目标对象的语音特征；基于上述目标对象的语音特征，确定上述混合语音中属于所述目标对象的语音。通过引入适应语音学习目标对象的语音特征，本申请方案可从混合语音中确定出目标对象的语音，以方便对混合语音中目标对象的语音进行追踪。例如在智能音箱的应用场景中，可利用唤醒语音作为适应语音学习唤醒语音说话人(即目标对象)的特征，并从在唤醒语音之后输入的混合语音中识别追踪属于唤醒语音说话人的语音。另外，由于本申请目标对象的语音特征并不依赖于混合语音中说话人的数目，因此，本申请方案无需在混合语音识别过程预先获知或估计混合语音中说话人的数目。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为基于深度吸引子网络的混合语音识别方案流程示意图；

图2为本申请提供的混合语音识别方法一个实施例流程结构示意图；

图3为本申请提供的混合语音识别方法另一个实施例流程结构示意图；

图4-a为本申请提供的一种识别网络结构示意图；

图4-b为本申请提供的另一种识别网络结构示意图；

图5为本申请提供的混合语音识别方法另一个实施例流程结构示意图；

图6为本申请提供的再一种识别网络结构示意图；

图7为本申请提供的混合语音识别装置一个实施例结构示意图；

图8为本发明提供的混合语音识别装置另一个实施例结构示意图；

图9为本发明提供的混合语音识别装置再一个实施例结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应理解，下述方法实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对各实施例的实施过程构成任何限定。

为了说明本申请所述的技术方案，下面通过具体实施例来进行说明。

本申请实施例提供一种混合语音识别方法，请参阅图2，本申请实施例中的混合语音识别方法包括：

步骤101、监听语音的输入；

本申请实施例中，可以通过麦克风阵列监听语音的输入，以便减少语音输入的噪声干扰。

步骤102、当监听到适应语音和混合语音的输入时，基于所述适应语音获取目标对象的语音特征；

本申请实施例中，上述适应语音为包含预设语音信息的语音。当监听到包含预设语音信息的语音输入时，可认为监听到适应语音的输入。例如，在智能音箱的应用场景中，通常需要输入唤醒语音来唤醒智能音箱的语音控制功能，唤醒语音为包含唤醒词(例如“叮咚叮咚”)的语音，因此，在该应用场景下，可以将唤醒语音作为适应语音，当监听到唤醒语音的输入时，即可认为监听到适应语音的输入。

可选的，在步骤102中，可以基于语音特征识别算法(例如梅尔频率倒谱系数(MFCC，Mel-frequency cepstral coefficients)算法)从上述适应语音提取目标对象的语音特征。

当然，在步骤102中，也可以通过其它方式从上述适应语音提取目标对象的语音特征，具体可参见后续实施例中的说明。

步骤103、基于上述目标对象的语音特征，确定上述混合语音中属于上述目标对象的语音；

其中，上述混合语音为在所述适应语音之后输入的非适应语音。

在步骤103中，基于上述目标对象的语音特征，可以通过相似度似然算法从上述混合语音中识别出与上述目标对象的语音特征相似的语音特征，进而确定出上述混合语音中属于上述目标对象的语音。

下面以另一实施例对本申请中的混合语音识别方法进行说明，请参阅图3，本申请实施例中的混合语音识别方法包括：

步骤201、监听语音的输入；

步骤202、当监听到适应语音和混合语音的输入时，将上述适应语音的频谱和上述混合语音的频谱分别嵌入到K维度的向量空间，得到上述适应语音各帧在各向量维度的向量以及上述混合语音各帧在各向量维度的向量；

其中，上述适应语音为包含预设语音信息的语音，上述K不小于1，可选的，上述K可以取40。

本申请实施例中，当监听到包含预设语音信息的语音输入时，可认为监听到适应语音的输入。例如，在智能音箱的应用场景中，通常需要输入唤醒语音来唤醒智能音箱的语音控制功能，唤醒语音为包含唤醒词(例如“叮咚叮咚”) 的语音，因此，在该应用场景下，可以将唤醒语音作为适应语音，当监听到唤醒语音的输入时，即可认为监听到适应语音的输入。

混合语音为在上述适应语音之后输入的非适应语音，在真实的智能语音交互场景中，特别是远讲条件下，经常会出现不同说话人的语音混叠的情况，从而导致输入的语音为混合语音，本申请实施例中的混合识别方法便是为了从混合语音中确定出属于目标对象的语音。

在步骤202中，可以将上述适应语音的频谱和上述混合语音的频谱经深度神经网络映射到K维度的向量空间，以得到上述适应语音各帧在各向量维度的向量以及上述混合语音各帧在各向量维度的向量。可选的，上述深度神经网络由4层双向长短时记忆网络(LSTM，Long Short-Term Memory)构成，每层LSTM 可有600个结点。当然，上述深度神经网络也可以替换为各种其它有效的新型的模型结构，例如，卷积神经网络(CNN，Convolutional Neural Network)和其它网络结构相结合的模型，或者其它网络结构，例如时延网络、闸控卷积神经网络等。本申请不限定深度神经网络的模型类型和拓扑结构。

具体的，本申请实施例的频谱可以通过对语音进行短时傅里叶变换后，对短时傅里叶变换的结果取对数后得到。

以下举例对步骤202进行说明，以上标“ws”表示适应语音，“cs”表示混合语音，“X_f,t”表示第t帧语音的频谱(f表示频谱维度的序列号，t表示时间维度的帧序列号)，则适应语音的频谱可以表示为

混合语音的频谱可以表示为

则在步骤202中，可以分别将适应语音的输入频谱

和混合语音的输入频谱

经深度神经网络映射为K维的向量，得到适应语音各帧在各向量维度的向量

(

表示适应语音的第t帧在第k向量维度的向量， k∈[1,K])以及混合语音各帧在各向量维度的向量

(

表示混合语音的第 t帧在第k向量维度的向量,k∈[1，K])。

步骤203、基于上述适应语音各帧在各向量维度的向量，计算上述适应语音在各向量维度的平均向量；

本申请实施例中，可以通过公式

计算上述适应语音在各向量维度的平均向量

其中，T1表示适应语音的帧数。

或者，为去除低能量频谱窗口噪声以得到适应语音的有效帧，在步骤203 中，也可以将适应语音的频谱与一定频谱阈值比较，如果适应语音某帧(也即某时频窗口)的频谱幅度大于适应频谱比较值，则认为该帧为适应语音有效帧，在步骤203中，基于上述适应语音有效帧在各向量维度的向量，计算上述适应语音在各向量维度的平均向量。其中，上述适应频谱比较值等于适应语音的最大频谱幅度与预设频谱阈值之间的差值。具体的，可以设置适应语音的有监督标注

将适应语音各帧的频谱分别与一频谱阈值Γ比较，如果适应语音某帧 (也即某时频窗口)的频谱幅度大于适应频谱比较值(即适应语音的最大频谱幅度与Γ之间的差值)，则该时频窗口对应的适应语音的有监督标注

取0；否则，

取1，具体公式可以表现为如下第一公式：

第一公式：

上述基于上述适应语音有效帧在各向量维度的向量，得到上述适应语音在各向量维度的平均向量包括：针对每个向量维度，将上述适应语音各帧在相应向量维度的向量分别乘以相应帧的有监督标注后求和，得到上述适应语音有效帧在相应向量维度的总向量；将上述适应语音有效帧在各向量维度的总向量分别除以上述适应语音各帧的有监督标注之和，得到上述适应语音在各向量维度的平均向量。具体地，上述基于上述适应语音有效帧在各向量维度的向量，得到上述适应语音在各向量维度的平均向量可以通过如下第二公式实现：

第二公式：

表示上述适应语音在向量维度k的平均向量，k∈[1，K]。

步骤204、将上述适应语音在各向量维度的平均向量作为目标对象在各向量维度的语音提取子，分别衡量上述混合语音各帧在各向量维度的向量与相应向量维度的语音提取子之间的距离，以估计上述混合语音各帧的掩码；

在步骤204中，通过衡量混合语音各帧在各向量维度的向量与语音提取子的距离来估计上述混合语音各帧的掩码，以还原目标对象的语音，估计方法如第三公式所示：

第三公式：

在上述第三公式中，

表示上述混合语音第t帧的掩码，

和

可以参照前述说明。

如果混合语音某帧(即时频窗口)的向量与语音提取子的内积距离越小，则该帧归属于目标对象的概率越大，相应的，通过第三公式估算出来对应该时频窗口的掩码也越大。

步骤205、基于上述混合语音各帧的掩码，确定上述混合语音中属于上述目标对象的语音；

本申请实施例中，在获得上述混合语音各帧的掩码后，即可基于上述混合语音各帧的掩码，确定上述混合语音中属于上述目标对象的语音。具体的，利用该掩码对上述混合语音进行加权，即可逐帧提取上述混合语音中属于上述目标对象的语音，而掩码越大，相应时频窗口的语音也将被提取得越多。

需要说明的是，图3所示实施例中是将上述适应语音在各向量维度的平均向量作为目标对象在各向量维度的语音提取子，当然，在其它实施例中也可以以其它方式选取目标对象在各向量维度的语音提取子。

例如，一种替代方案可以是：在上述步骤202之后，基于聚类算法(例如 K-means算法)对上述混合语音各帧在各向量维度的向量进行处理，以确定上述混合语音在各向量维度上对应不同说话人语音的质心向量。将上述步骤204 替换为：将上述混合语音在各向量维度的目标质心向量作为目标对象在相应向量维度的语音提取子，分别衡量上述混合语音各帧在各向量维度的向量与相应向量维度的语音提取子之间的距离，以估计上述混合语音各帧的掩码，其中，上述目标质心向量为在同一向量维度与上述适应语音的平均向量距离最小的质心向量。

又例如，另一种替代方案可以是：在上述步骤203之后，分别比较预设的 M个语音提取子与上述适应语音在各向量维度的平均向量之间的距离，其中，上述M大于1。将上述步骤204替换为：将上述M个语音提取子中，与上述适应语音在一向量维度的平均向量距离最小的语音提取子作为目标对象在相应向量维度的语音提取子，分别衡量上述混合语音各帧在各向量维度的向量与相应向量维度的语音提取子之间的距离，以估计上述混合语音各帧的掩码。

为了实现图3所示混合语音识别流程，本申请实施例中可以预先构建用于实现该混合语音识别流程的识别网络，并对该识别网络进行训练。

(这些具体的应用场景的技术方案建议提取一下加入到权利要求中，多增加几个从权保护详细的方案)

在一种应用场景中，上述识别网络的结构示意图可如图4-a所示。下面结合图4-a对上述识别网络的训练过程进行说明：

1、将用以训练识别网络的适应语音样本和混合语音样本输入深度神经网络，该深度神经网络由4层双向LSTM层构成，每层LSTM有600个结点。当然，上述深度神经网络也可以替换为各种其它有效的新型的模型结构，例如，CNN和其它网络结构相结合的模型，或者其它网络结构，例如时延网络、闸控卷积神经网络等。本申请不限定深度神经网络的模型类型和拓扑结构。

本应用场景以上标“ws'”表示适应语音样本，“cs'”表示混合语音样本， “X_f,t”表示第t帧语音的频谱(f表示频谱维度的序列号，t表示时间维度的帧序列号)，则适应语音样本的频谱可以表示为

混合语音样本的频谱可以表示为

则可以分别将适应语音样本的输入频谱

和混合语音样本的输入频谱

经深度神经网络映射为K维的向量，得到适应语音样本各帧在各向量维度的向量

(

表示适应语音样本的第t帧在第k向量维度的向量， k∈[1，K])以及混合语音样本各帧在各向量维度的向量

(

表示混合语音样本的第t帧在第k向量维度的向量,k∈[1，K])。

2、为去除低能量频谱窗口噪声以得到适应语音的有效帧，设置适应语音样本的有监督标注

将适应语音样本各帧的频谱分别与一频谱阈值Γ比较，如果适应语音样本某帧(也即某时频窗口)的频谱幅度大于适应频谱比较值(即适应语音样本的最大频谱幅度与Γ之间的差值)，则该时频窗口对应的适应语音样本的有监督标注

取0；否则，

取1，具体公式可以表现为第四公式。

第四公式：

本应用场景中，利用适应语音样本的向量

和有监督标注

来估计目标对象在向量空间的语音提取子

针对每个向量维度，将上述适应语音样本各帧在相应向量维度的向量分别乘以相应帧的有监督标注后求和，得到上述适应语音样本有效帧在相应向量维度的总向量；将上述适应语音样本有效帧在各向量维度的总向量分别除以上述适应语音样本各帧的有监督标注之和，得到上述适应语音样本在各向量维度的平均向量，计算方法可如第五公式。

第五公式：

3、通过衡量混合语音样本各帧在各向量维度的向量与语音提取子

的距离来估计还原目标对象的Mask，估计方法如第六公式所示，如果一时频窗口与语音提取子的内积距离越小，则该时频窗口归属于目标对象的概率越大，那么通过第六公式估算出来的相应时频窗口的Mask越大，则混合语音样本中相应的时频窗口的语音也将被提取得越多。

第六公式：

在上述第六公式中，

表示上述混合语音样本第t帧的掩码，

和

可以参照前述说明。

4、通过上述识别网络的目标函数重建由估计得到的Mask还原出的目标对象语音与目标对象的参考语音之间的频谱误差，之后通过最小化该目标函数来训练整个网络，该目标函数L可以如第七公式所示。

第七公式：

在上述第七公式中，

表示目标对象的参考语音在第t帧的频谱(也即参考语音频谱)。上述第七公式是标准的L2重建误差。由于重建误差反映的是还原的语音与目标对象的参考语音之间的频谱误差，因此，训练上述识别网络时可以通过生成梯度减小全局误差以优化提取到的目标对象的语音质量。

在另一种应用场景中，上述识别网络的结构示意图也可如图4-b所示。在本应用场景中，对识别网络的训练过程无需适应语音样本的输入，也即不区分目标对象和干扰对象。下面结合图4-b对上述识别网络的训练过程进行说明：

1、设混合语音样本中共有C个说话人的语音，为得到各说话人的有监督标注Y_c,f,t，可以先去除混合语音样本中的低能量频谱窗口噪声，之后针对混合语音样本的每个说话人的语音频谱幅度，如果某一说话人在某帧的语音频谱幅度均大于该帧中其它说话人的频谱幅度，则该说话人在该帧对应的Y_c,f,t取1，否则取0。

本应用场景中，以“X_c,f,t”表示混合语音样本第t帧语音的频谱，将混合语音样本的输入频谱X_c,f,t经深度神经网络映射为K维的向量，得到混合语音样本各帧在各向量维度的向量V_k,f,t(V_k,f,t表示混合语音样本的第t帧在第k向量维度的向量,k∈[1,K])。上述深度神经网络由4层双向LSTM层构成，每层LSTM 有600个结点。当然，上述深度神经网络也可以替换为各种其它有效的新型的模型结构，例如，CNN和其它网络结构相结合的模型，或者其它网络结构，例如时延网络、闸控卷积神经网络等。本申请不限定深度神经网络的模型类型和拓扑结构。

2、利用混合语音样本的向量V_k,f,t和有监督标注Y_c,f,t来估计各说话人在向量空间的语音提取子A_c,k，计算方法如第八公式。

第八公式：

3、通过衡量混合语音样本各帧在各向量维度的向量与各语音提取子的距离来估计各说话人的Mask，估计方法如第九公式所示。

第九公式：

在上述第九公式中，M_c,f,t表示上述混合语音样本中第t帧与说话人c有关的掩码，A_c,k和V_k,f,t可以参照前述说明。

4、利用各说话人的Mask提取混合语音样本中各个说话人的语音；

5、通过上述识别网络的目标函数重建由估计得到的Mask还原出的各说话人语音与相对应的说话人的参考语音之间的频谱误差，之后通过最小化该目标函数来训练整个网络，该目标函数L可以如第十公式所示。

第十公式：

在上述第十公式中，S_c,f,t表示说话人c的参考语音在第t帧的频谱(也即参考语音频谱)。上述第十公式是标准的L2重建误差。由于重建误差反映的是还原出的各说话人与相应说话人的参考语音之间的频谱误差，因此，训练上述识别网络时可以通过生成梯度减小全局误差以优化提取到的所有说话人的语音质量。

由上可见，本申请实施例在监听到适应语音和混合语音的输入时，将适应语音的频谱和混合语音的频谱分别嵌入到K维度的向量空间，并基于适应语音为目标对象确定语音提取子，然后通过衡量混合语音各帧在各向量维度的向量与相应向量维度的语音提取子之间的距离，来估计混合语音各帧的掩码，最后基于掩码确定出混合语音中属于该目标对象的语音。通过引入适应语音学习目标对象的特征，本申请方案可从混合语音中确定出目标对象的语音，以方便对混合语音中目标对象的语音进行追踪。例如在智能音箱的应用场景中，可利用唤醒语音作为适应语音学习唤醒语音说话人(即目标对象)的特征，并从在唤醒语音之后输入的混合语音中识别追踪属于唤醒语音说话人的语音。另外，由于本申请语音提取子的确定并不依赖于混合语音中说话人的数目，因此，本申请方案无需在混合语音识别过程预先获知或估计混合语音中说话人的数目。

下面以另一实施例对本申请中的混合语音识别方法进行描述，本实施例与图3所示实施例的区别在于，本实施例在识别网络(即用于实现混合语音识别的网络)中引入一前向神经网络将原始的向量空间映射到规整的向量空间，从而使得通过该识别网络训练得到的语音提取子的分布相对更集中稳定。如图5 所示，本申请实施例中的混合语音识别方法包括：

步骤301、监听语音的输入；

步骤302、当监听到适应语音和混合语音的输入时，将上述适应语音的频谱和上述混合语音的频谱分别嵌入到K维度的向量空间，得到上述适应语音各帧在各向量维度的向量以及上述混合语音各帧在各向量维度的向量；

在步骤302中，可以上述适应语音的频谱和上述混合语音的频谱经深度神经网络映射为K维度的向量空间，以得到上述适应语音各帧在各向量维度的向量以及上述混合语音各帧在各向量维度的向量。可选的，上述深度神经网络由 4层双向LSTM构成，每层LSTM可有600个结点。当然，上述深度神经网络也可以替换为各种其它有效的新型的模型结构，例如，卷积神经网络(CNN， Convolutional Neural Network)和其它网络结构相结合的模型，或者其它网络结构，例如时延网络、闸控卷积神经网络等。本申请不限定深度神经网络的模型类型和拓扑结构。

以下举例对步骤302进行说明，以上标“ws”表示适应语音，“cs”表示混合语音，“X_f,t”表示第t帧语音的频谱(f表示频谱维度的序列号，t表示时间维度的帧序列号)，则适应语音的频谱可以表示为

混合语音的频谱可以表示为

则在步骤302中，可以分别将适应语音的输入频谱

和混合语音的输入频谱

(

(

表示混合语音的第 t帧在第k向量维度的向量,k∈[1，K])。

步骤303、基于上述适应语音各帧在各向量维度的向量，计算上述适应语音在各向量维度的平均向量；

本申请实施例中，可以通过公式

计算上述适应语音在各向量维度的平均向量

其中，T1表示适应语音的帧数。

或者，为去除低能量频谱窗口噪声以得到适应语音的有效帧，在步骤303 中，也可以将适应语音的频谱与一定频谱阈值比较，如果适应语音某帧(也即某时频窗口)的频谱幅度大于适应频谱比较值，则认为该帧为适应语音有效帧，在步骤303中，基于上述适应语音有效帧在各向量维度的向量，计算上述适应语音在各向量维度的平均向量。其中，上述适应频谱比较值等于适应语音的最大频谱幅度与预设频谱阈值之间的差值。具体的，可以设置适应语音的有监督标注

取0；否则，

取1，具体公式可以表现参照前述第一公式，上述基于上述适应语音有效帧在各向量维度的向量，计算上述适应语音在各向量维度的平均向量可以通过前述第二公式实现。

步骤304、将上述适应语音在各向量维度的平均向量和上述混合语音各帧在各向量维度的向量输入预先训练好的前向神经网络，得到各帧在各向量维度的规整向量；

本申请实施例中，上述前向神经网络可以为两层的网络，每层结点数可以为256。以前述举例进一步说明，将上述适应语音在各向量维度的平均向量

和上述混合语音各帧在各向量维度的向量

合并成2K维度的向量入上述前向神经网络，输出K维的规整向量

具体的，该前向神经网络的函数表示可以如第十一公式所示。

第十一公式：

在上述第十一公式中，

表示通过深度神经网络学习到的非线性映射函数，其作用是将原始向量空间映射到新的向量空间(即规整后的向量空间)。

步骤305、分别衡量上述各帧在各向量维度的规整向量与预设的语音提取子之间的距离，以估计得到上述混合语音各帧的掩码；

由于本申请实施例中的识别网络训练得到的语音提取子具有分布稳定集中的特性，因此，本申请实施例中，可以利用训练上述识别网络时得到的所有语音提取子的质心作为预设的语音提取子。由于本申请实施例中在混合语音的识别过程中不需要重新估计语音提取子，因此，本申请实施例中的混合语音识别方案能较好地实现逐帧实时处理。

步骤306、基于上述混合语音各帧的掩码，确定上述混合语音中属于所述目标对象的语音；

下面对用以实现图5所示混合语音识别流程的识别网络进行说明，该识别网络的结构示意图可如图6所示。下面结合图6对上述识别网络的训练过程进行说明：

混合语音样本的频谱可以表示为

则可以分别将适应语音样本的输入频谱

和混合语音样本的输入频谱

(

(

表示混合语音样本的第t帧在第k向量维度的向量,k∈[1,K])。

取0；否则，

取1，具体公式可以表现为参见前述第四公式。

本应用场景中，基于上述适应语音各帧在各向量维度的向量

和有监督标注

计算上述适应语音在各向量维度的平均向量

计算方法如上述第五公式。

3、将上述适应语音在各向量维度的平均向量

和上述混合语音各帧在各向量维度的向量

合并成2K维度的向量入前向神经网络，输出K维的规整向量

具体的，该前向神经网络的函数表示可以如上述第十一公式所示。关于前向神经网络的说明可以参照步骤304中的描述，此处不再赘述。

4、为得到混合语音样本中目标对象的有监督标注

可以先去除混合语音样本中的低能量频谱窗口噪声，之后针对混合语音样本中目标对象的语音频谱幅度，如果目标对象在某帧的语音频谱幅度均大于该帧中干扰对象的频谱幅度，则目标对象在该帧对应的

取1，否则取0。

5、基于规整向量

和混合语音样本中目标对象的有监督标注

通过第十二公式估算规整的语音提取子

第十二公式：

6、通过衡量各帧在各向量维度的规整向量

与规整后的语音提取子

的距离来估计还原目标对象的Mask，估计方法如第十三公式所示，如果一时频窗口与语音提取子的内积距离越小，则该时频窗口归属于目标对象的概率越大，那么通过第十二公式估算出来的相应时频窗口的Mask越大，则混合语音样本中相应的时频窗口的语音也将被提取得越多。

第十三公式：

在上述第十三公式中，

表示上述混合语音样本第t帧的掩码。

7、通过上述识别网络的目标函数重建由估计得到的Mask还原出的目标对象语音与目标对象的参考语音之间的频谱误差，通过最小化该目标函数来训练整个网络，该目标函数L可以如第十四公式所示。

第十四公式：

在上述第十四公式中，

表示目标对象的参考语音在第t帧的频谱(也即参考语音频谱)。上述第十四公式是标准的L2重建误差。由于重建误差反映的是还原的语音与目标对象的参考语音之间的频谱误差，因此，训练上述识别网络时可以通过生成梯度减小全局误差以优化提取到的目标对象的语音质量。

不同于混合语音样本，在实际的混合语音识别中，由于并不知晓输入的混合语音中哪些语音属于目标对象，因此，混合语音中目标对象的有监督标注是未知的，故如前面提及的，可以利用训练上述识别网络时得到的所有语音提取子的质心作为预设的语音提取子，在图3所示实施例的步骤305中，分别衡量上述各帧在各向量维度的规整向量与预设的语音提取子之间的距离，以估计得到上述混合语音各帧的掩码。

本申请实施例提供一种混合语音识别装置。如图7所示，本申请实施例中的混合语音识别装置包括：

监听单元71，用于监听语音的输入；

获取单元72，用于当监听单元71监听到适应语音和混合语音的输入时，基于所述适应语音获取目标对象的语音特征；

确定单元73，用于基于所述目标对象的语音特征，确定所述混合语音中属于所述目标对象的语音；

可选的，在图7所示实施例的基础上，如图8所示，获取单元72可包括：

空间映射单元721，用于当监听单元71监听到适应语音和混合语音的输入时，将所述适应语音的频谱和所述混合语音的频谱分别嵌入到K维度的向量空间，得到所述适应语音各帧在各向量维度的向量以及所述混合语音各帧在各向量维度的向量，其中，所述适应语音为包含预设语音信息的语音，所述混合语音为在所述适应语音之后输入的非适应语音，所述K不小于1；

计算单元722，用于基于所述适应语音各帧在各向量维度的向量，计算所述适应语音在各向量维度的平均向量；

掩码估计单元723，用于将所述适应语音在各向量维度的平均向量作为目标对象在各向量维度的语音提取子，分别衡量所述混合语音各帧在各向量维度的向量与相应向量维度的语音提取子之间的距离，以估计所述混合语音各帧的掩码；

确定单元73，用于基于所述混合语音各帧的掩码，确定所述混合语音中属于所述目标对象的语音。

可选的，计算单元722具体用于：基于所述适应语音有效帧在各向量维度的向量，计算所述适应语音在各向量维度的平均向量，其中，所述适应语音有效帧是指所述适应语音中频谱幅度大于适应频谱比较值的帧，所述适应频谱比较值等于所述适应语音的最大频谱幅度与预设频谱阈值之间的差值。

可选的，本申请实施例中的混合语音识别装置还包括：规整单元，用于将所述适应语音在各向量维度的平均向量和所述混合语音各帧在各向量维度的向量输入预先训练好的前向神经网络，得到各帧在各向量维度的规整向量。掩码估计单元723具体用于：分别衡量所述各帧在各向量维度的规整向量与预设的语音提取子之间的距离，以估计得到所述混合语音各帧的掩码。

可选的，本申请实施例中的混合语音识别装置还包括：聚类单元，用于基于聚类算法对所述混合语音各帧在各向量维度的向量进行处理，以确定所述混合语音在各向量维度上对应不同说话人语音的质心向量。掩码估计单元723具体用于：将所述混合语音在各向量维度的目标质心向量作为目标对象在相应向量维度的语音提取子，分别衡量所述混合语音各帧在各向量维度的向量与相应向量维度的语音提取子之间的距离，以估计所述混合语音各帧的掩码。

可选的，本申请实施例中的混合语音识别装置还包括：比较单元，用于分别比较预设的M个语音提取子与所述适应语音在各向量维度的平均向量之间的距离，其中，所述M大于1。掩码估计单元723具体用于：将所述M个语音提取子中，与所述适应语音在一向量维度的平均向量距离最小的语音提取子作为目标对象在相应向量维度的语音提取子，分别衡量所述混合语音各帧在各向量维度的向量与相应向量维度的语音提取子之间的距离，以估计所述混合语音各帧的掩码。

应理解，本发明实施例中的混合语音识别装置可以用于实现上述方法实施例中的全部技术方案，其各个功能模块的功能可以根据上述方法实施例中的方法具体实现，其具体实现过程可参照上述实施例中的相关描述，此处不再赘述。

由上可见，本申请实施例在监听到适应语音和混合语音的输入时，基于该适应语音获取目标对象的语音特征；基于上述目标对象的语音特征，确定上述混合语音中属于所述目标对象的语音。通过引入适应语音学习目标对象的语音特征，本申请方案可从混合语音中确定出目标对象的语音，以方便对混合语音中目标对象的语音进行追踪。例如在智能音箱的应用场景中，可利用唤醒语音作为适应语音学习唤醒语音说话人(即目标对象)的特征，并从在唤醒语音之后输入的混合语音中识别追踪属于唤醒语音说话人的语音。另外，由于本申请目标对象的语音特征并不依赖于混合语音中说话人的数目，因此，本申请方案无需在混合语音识别过程预先获知或估计混合语音中说话人的数目。

本申请实施例提供另一种混合语音识别装置，请参阅图9，本申请实施例中的混合语音识别装置还包括：存储器81，一个或多个处理器82(图9中仅示出一个)及存储在存储器81上并可在处理器上运行的计算机程序。其中：存储器82用于存储软件程序以及模块，处理器82通过运行存储在存储器81的软件程序以及单元，从而执行各种功能应用以及数据处理。具体地，处理器82通过运行存储在存储器81的上述计算机程序时实现以下步骤：

监听语音的输入；

假设上述为第一种可能的实现方式，则在第一种可能的实现方式作为基础而提供的第二种可能的实现方式中，所述基于适应语音获取目标对象的语音特征包括：

将所述适应语音的频谱和所述混合语音的频谱分别嵌入到K维度的向量空间，得到所述适应语音各帧在各向量维度的向量以及所述混合语音各帧在各向量维度的向量，其中，所述K不小于1；

在第二种可能的实现方式作为基础而提供的第三种可能的实现方式中，所述基于所述适应语音各帧在各向量维度的向量，计算所述适应语音在各向量维度的平均向量具体为：

在上述第三种可能的实现方式作为基础而提供的第四种可能的实现方式中，所述计算单元具体用于：针对每个向量维度，将所述适应语音各帧在相应向量维度的向量分别乘以相应帧的有监督标注后求和，得到所述适应语音有效帧在相应向量维度的总向量；将所述适应语音有效帧在各向量维度的总向量分别除以所述适应语音各帧的有监督标注之和，得到所述适应语音在各向量维度的平均向量；

在上述第二种可能的实现方式或者上述第三种可能的实现方式或者上述第四种可能的实现方式作为基础而提供的第五种可能的实现方式中，在基于所述适应语音各帧在各向量维度的向量，计算所述适应语音在各向量维度的平均向量之后，处理器82通过运行存储在存储器81的上述计算机程序时还实现以下步骤：

在上述第二种可能的实现方式或者上述第三种可能的实现方式或者上述第四种可能的实现方式作为基础而提供的第六种可能的实现方式中，在所述将所述适应语音的频谱和所述混合语音的频谱分别嵌入到K维度的向量空间之后，处理器82通过运行存储在存储器81的上述计算机程序时还实现以下步骤：

所述将所述适应语音在各向量维度的平均向量作为目标对象在各向量维度的语音提取子替换为：将所述混合语音在各向量维度的目标质心向量作为目标对象在相应向量维度的语音提取子，其中，所述目标质心向量为在同一向量维度与所述适应语音的平均向量距离最小的质心向量。

在上述第二种可能的实现方式或者上述第三种可能的实现方式或者上述第四种可能的实现方式作为基础而提供的第七种可能的实现方式中，在所述基于所述适应语音各帧在各向量维度的向量，计算所述适应语音在各向量维度的平均向量之后，处理器82通过运行存储在存储器81的上述计算机程序时还实现以下步骤：

分别比较预设的M个语音提取子与上述适应语音在各向量维度的平均向量之间的距离，其中，上述M大于1；

所述将所述适应语音在各向量维度的平均向量作为目标对象在各向量维度的语音提取子替换为：将所述M个语音提取子中，与所述适应语音在一向量维度的平均向量距离最小的语音提取子作为目标对象在相应向量维度的语音提取子。

可选的，如图9示，上述混合语音识别装置还包括：一个或多个输入设备 83(图9中仅示出一个)和一个或多个输出设备84(图9中仅示出一个)。存储器81、处理器82、输入设备83和输出设备84通过总线85连接。

应当理解，在本申请实施例中，所称处理器82可以是中央处理单元 (CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备83可以包括键盘、触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等，输出设备84可以包括显示器、扬声器等。

存储器84可以包括只读存储器和随机存取存储器，并向处理器81提供指令和数据。存储器84的一部分或全部还可以包括非易失性随机存取存储器。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将上述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，上述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，上述计算机程序包括计算机程序代码，上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括：能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，上述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

以上上述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种混合语音识别网络训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述通过所述语音识别网络的深度神经网络确定与所述混合语音样本对应的混合语音样本的向量，包括：

所述混合语音样本为输入的非适应语音样本。

3.根据权利要求1所述的方法，其特征在于，所述通过所述混合语音识别网络对所述混合语音样本的向量和相应的有监督标注进行处理，形成目标对象在向量空间的语音提取子，包括：

4.根据权利要求1所述的方法，其特征在于，所述通过所述目标对象的掩码与目标对象的参考语音对所述混合语音识别网络的参数进行更新，包括：

5.一种混合语音识别方法，其特征在于，应用于如权利要求1-4任一项所述的方法训练得到的混合语音识别网络，包括：

监听语音的输入；

6.根据权利要求5所述的混合语音识别方法，其特征在于，所述基于适应语音获取目标对象的语音特征包括：

7.根据权利要求6所述的混合语音识别方法，其特征在于，所述基于所述适应语音各帧在各向量维度的向量，计算所述适应语音在各向量维度的平均向量具体为：

8.根据权利要求7所述的混合语音识别方法，其特征在于，所述基于所述适应语音有效帧在各向量维度的向量，计算所述适应语音在各向量维度的平均向量，包括：

其中，所述适应语音中频谱幅度大于适应频谱比较值的帧的有监督标注取1，所述适应语音中频谱幅度不大于适应频谱比较值的帧的有监督标注取0。

9.根据权利要求6至8任一项所述的混合语音识别方法，其特征在于，所述基于所述适应语音各帧在各向量维度的向量，计算所述适应语音在各向量维度的平均向量之后还包括：

10.根据权利要求6至8任一项所述的混合语音识别方法，其特征在于，所述将所述适应语音的频谱和所述混合语音的频谱分别嵌入到K维度的向量空间之后还包括：

11.根据权利要求6至8任一项所述的混合语音识别方法，其特征在于，所述基于所述适应语音各帧在各向量维度的向量，计算所述适应语音在各向量维度的平均向量之后还包括：

12.根据权利要求6至8任一项所述的混合语音识别方法，其特征在于，所述将所述适应语音的频谱和所述混合语音的频谱分别嵌入到K维度的向量空间，得到所述适应语音各帧在各向量维度的向量以及所述混合语音各帧在各向量维度的向量具体为：

13.一种混合语音识别装置，其特征在于，包括：

监听单元，用于监听语音的输入；

14.一种混合语音识别装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求5至12任一项所述方法的步骤。

15.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的混合语音识别网络训练方法，或者实现如权利要求5至12任一项所述方法的步骤。