CN108109619B

CN108109619B - 基于记忆和注意力模型的听觉选择方法和装置

Info

Publication number: CN108109619B
Application number: CN201711127669.7A
Authority: CN
Inventors: 许家铭; 石晶; 徐波
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2017-11-15
Filing date: 2017-11-15
Publication date: 2021-07-06
Anticipated expiration: 2037-11-15
Also published as: CN108109619A; WO2019096149A1; US20200227064A1; US10818311B2

Abstract

本发明属于语音分离技术领域，具体涉及基于记忆和注意力模型的听觉选择方法和装置。旨在解决现有技术中监督标签的排列、说话人混叠数目不确定以及记忆单元维度固定的问题。本发明提供一种基于记忆和注意力模型的听觉选择方法，包括将原始语音信号编码为时频矩阵，对时频矩阵进行编码和变换，将其转化为语音向量，利用长时记忆单元存储说话人以及其对应的语音向量，获取目标说话人的语音向量，通过注意力选择模型从原始语音信号中分离出目标语音。本发明提供的方法能够不需要固定或者指定说话人的数目，从原始语音信号中分离出目标语音。

Description

基于记忆和注意力模型的听觉选择方法和装置

技术领域

本发明属于语音分离技术领域，具体涉及基于记忆和注意力模型的听觉选择方法和装置。

背景技术

近年来，电子设备和人工智能飞速发展，人机语音交互作为人工智能领域重要的组成部分，其重要性日益凸显，人机语音交互在现实生活中得到广泛的应用。人机语音交互是机器识别并分析提取语音信号语义特征信息，与标准信息库中语义特征相对比，输出相应文字或转化为我们想要的输出结果。但在实际应用中，现实环境存在大量的干扰，机器识别并分析提取语音信号语义特征信息这一过程无法令人满意。自从“鸡尾酒会问题”被提出后，语音分离技术作为人机语音交互的一个重要方法。

现有的语音分离技术采用监督学习的方法，但是现实环境中说话人混叠数目不确定以及监督学习方法的监督标签的排列不确定等因素，导致现有技术在实际应用场景中应用效果差，可靠性不高。此外，现有的监督学习的方法中记忆单元的维度固定，导致难以对未登录的说话人，或者较少出现的说话人的声纹信息进行有效地存储，也就无法做到准确的语音分离。

因此，如何提出一种解决上述问题的方案是本领域技术人员目前需要解决的问题。

发明内容

为了解决现有技术中的上述问题，即为了解决现有技术中监督标签的排列、说话人混叠数目不确定以及记忆单元维度固定的问题，本发明的一方面提供了一种基于记忆和注意力模型的听觉选择方法，包括：

将原始语音信号编码为包含时间-频率维度的矩阵；

对所述矩阵进行编码和变换，将其转化为语音向量；

利用长时记忆单元存储说话人以及与其对应的语音向量；

从所述长时记忆单元中获取目标说话人对应的语音向量，根据所述目标说话人对应的语音向量，通过注意力选择模型从所述原始语音信号中分离出目标语音。

在上述方法的优选技术方案中，所述“将原始语音信号编码为包含时间-频率维度的矩阵”之前，该方法还包括：

对所述原始语音信号进行重采样，并对重采样后的语音信号进行滤波操作以便降低所述原始语音信号的采样率。

在上述方法的优选技术方案中，所述“对所述矩阵进行编码和变换，将其转化为语音向量”，其方法为：

利用双向长短时记忆网络模型BiLSTM分别从顺序和逆序两个方向对所述矩阵进行编码，分别得到第一隐层向量和第二隐层向量；

将所述第一隐层向量和与其对应时刻的所述第二隐层向量进行融合，得到第三隐层向量；

将所述第三隐层向量通过全连接层转化为语音向量；

其中，矩阵按顺序编号排列的时刻与矩阵按逆序排列相同编号的时刻互为对应时刻。

在上述方法的优选技术方案中，利用BiLSTM对所述矩阵进行编码得到隐层向量，其公式为：

其中，i、f、c、o、h分别表示BiLSTM的输入门、遗忘门、存储单元、输出门以及隐层向量，σ表示Sigmoid函数，x表示输入量，t表示时刻；

其中，W_xi、W_hi、W_ci分别表示当前时刻输入量x_t、上一时刻的隐层向量h_t-1、上一时刻记忆单元c_t-1在输入门中的编码矩阵参数；b_i表示输入门中的信息偏置参数；

其中，W_xf、W_hf、W_cf分别表示当前时刻输入量x_t、上一时刻的隐层向量h_t-1、上一时刻记忆单元c_t-1在遗忘门中的编码矩阵参数；b_f表示遗忘门中的信息偏置参数；

其中，W_xc、W_hc分别表示当前时刻输入量x_t、上一时刻的隐层向量h_t-1在存储单元中的编码矩阵参数；b_c表示存储单元中的信息偏置参数；

其中，W_xo、W_ho、W_co分别表示当前时刻输入量x_t、上一时刻的隐层向量h_t-1、上一时刻记忆单元c_t-1在输出门中的编码矩阵参数；b_o表示输出门中的信息偏置参数。

在上述方法的优选技术方案中，所述“将所述第一隐层向量和与其对应时刻的所述第二隐层向量进行融合”，融合方法包括将所述第一隐层向量与所述第二隐层向量相加、或者求解所述第一隐层向量与所述第二隐层向量的平均值、或者将所述第一隐层向量与所述第二隐层向量首尾拼接。

在上述方法的优选技术方案中，所述“利用长时记忆单元存储说话人以及与其对应的语音向量”，其方法为：

采用Key-Value形式将说话人与其对应的语音向量存储在所述长时记忆单元中，其中，Key存储说话人的索引，Value存储该说话人对应的语音向量。

在上述方法的优选技术方案中，所述“利用长时记忆单元存储说话人以及与其对应的语音向量”之后，该方法还包括：

当所述长时记忆单元中存储的说话人产生新的语音时，提取该说话人的语音向量，并更新该说话人在所述长时记忆单元中存储的语音向量，使其替换该说话人原有的语音向量。

在上述方法的优选技术方案中，所述“更新该说话人的语音向量”，其方法为：

提取说话人的语音向量后，将其与所述长时记忆单元中该说话人原有的语音向量相加，将得到的结果进行幅值归一化处理，具体公式为：

其中，q表示所述说话人产生的新的语音向量，v1表示所述说话人原有的语音向量，v表示所述说话人更新后的语音向量。

在上述方法的优选技术方案中，所述“从所述长时记忆单元中获取目标说话人对应的语音向量”，其方法为：

在所述说话人和与其对应的语音向量之间建立映射矩阵，根据所述映射矩阵，由目标说话人查询得到对应的语音向量；

或者将目标说话人的语音输入BiLSTM，在时间维度上求解所述BiLSTM输出的平均值，将其作为所述目标说话人对应的语音向量。

在上述方法的优选技术方案中，所述“通过注意力选择模型从所述原始语音信号中分离出目标语音”，其方法为：

将所述目标说话人对应的语音向量与原始语音信号转化的语音向量进行相似度计算，得到所述目标语音的信息掩蔽；

计算所述目标语音的信息掩蔽与原始语音信号中对应点的加权值，得到目标语音的输出时频图；

通过逆快速傅里叶变化iSTFT将所述输出时频图转化为目标语音。

在上述方法的优选技术方案中，所述“将原始语音信号编码为包含时间-频率维度的矩阵”，其方法为：

将所述原始语音信号通过短时快速傅里叶变换STFT编码为包含时间-频率维度的矩阵。

本发明的第二方面提供一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行如上述所述的基于记忆和注意力模型的听觉选择方法。

本发明的第三方面提供一种处理装置，包括处理器、存储设备；处理器，适于执行各条程序；存储设备，适于存储多条程序；所述程序适于由处理器加载并执行如上述所述的基于记忆和注意力模型的听觉选择方法。

本发明提供的基于记忆和注意力模型的听觉选择方法，针对语音信号时序性、短时稳定性的特点，采用循环神经网络对语音信号进行有效地编码以及对编码后得到的语音向量进行筛选、分离。

同时，本发明设计并配置一种外置长时记忆单元的网络对语音数据进行编码存储和记忆，能够保存并固化更长的历史数据信息，既可以利用训练数据中学习到的存储在记忆中的声源信息进行较高准确度地选择和语音分离，也可以灵活地识别并记录未出现过的罕见声源信息。因此本发明的方法不需要固定或者指定说话人的数目，可以直接对混叠语音进行测试。

附图说明

图1为本发明一种实施例基于记忆和注意力模型的听觉选择方法的流程示意图；

图2为本发明实施例中将原始语音信号转换为时频维度矩阵的示意图；

图3为本发明实施例中将时频维度矩阵拓展为语音向量的示意图；

图4为本发明实施例中记忆单元存储过程的示意图；

图5为本发明实施例中不同驱动方式下听觉选择的流程示意图；

图6为本发明实施例中将目标语音的时频图转换为目标语音的示意图；

图7为本发明实施例中基于记忆和注意力模型的听觉选择方法的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

如图1所示，为本发明一种实施例基于记忆和注意力模型的听觉选择方法的流程示意图，包括：

步骤S1：将原始语音信号编码为包含时间-频率维度的矩阵；

在本发明实施例的一种优选实施例中，“将原始语音信号编码为包含时间-频率两个维度的矩阵”之前，该方法还包括：

对原始语音信号进行重采样，并对重采样后的语音信号进行滤波操作以便降低原始语音信号的采样率。

进一步地，将原始语音信号通过短时快速傅里叶变换STFT编码为包含时间-频率维度的矩阵。

具体地，如图2所示，图2为本发明实施例中将原始语音信号转换为时频维度矩阵的示意图，原始语音信号是一种时域信号，包含时间和幅值两个维度的信息，在实际场景中往往存在较多的干扰，需要从被干扰的语音信号中分离出有用的信号，本发明通过STFT(Short-Time Fourier Transform，短时快速傅里叶变换)将输入的原始语音信号分解为二维的时间-频率维度矩阵，不仅能够有利于排除干扰，而且时间-频率维度的矩阵表示有利于对语音信号的分析。其中，STFT是通过时间窗内一段信号来表示某一时刻的信号特征，能够用以确定时变信号其局部区域正弦波的频率和相位。

在实际应用中，为了降低整个方法的计算复杂度和在计算机上的内存开销，在将原始语音信号编码为包含时间-频率维度的矩阵之前，先对原始语音数据在时间维度上，以一定的固定间隔进行抽样，并用低通滤波器提前进行滤波操作，以原始语音信号的采样率为16Khz为例，对原始语音信号进行重采样之后，可以将其采样率降低到8Khz。

步骤S2：对矩阵进行编码和变换，将其转化为语音向量；

如图3所示，图3为本发明实施例中将时频维度矩阵拓展为语音向量的示意图，在步骤S1得到时间-频率维度矩阵的基础上，对其进行编码和变换，将每一个时间-频率矩阵拓展为一个向量表示，将整个语音的时间-频率矩阵拓展为包含时间、频率和Embedding三个维度的编码。其中，在神经网络中Embedding是指将一个具体的数据中的每一个点，拓展为一个多维数据，以词向量为例，将每一个词汇从其简单的一维序号表示映射称为一个多维向量。在本发明中，Embedding是将原来的时间-频率两个维度的每一个点，通过神经网络扩充为一个多维向量，故，将原来的时间-频率的二维矩阵变成了时间、频率以及Embedding三维的数据，即语音向量。

在本发明实施例的一种优选实施例中，“对矩阵进行编码和变换，将其转化为语音向量”，其方法为：

利用双向长短时记忆网络模型BiLSTM分别从顺序和逆序两个方向对矩阵进行编码，分别得到第一隐层向量和第二隐层向量；

将第一隐层向量和与其对应时刻的第二隐层向量进行融合，得到第三隐层向量；

将第三隐层向量通过全连接层转化为语音向量；

通过BiLSTM(Bi-directional Long Short-Term Memory，双向长短时记忆网络模型)从顺序和逆序两个方向对矩阵进行编码，分别将其编码为大小

的二维矩阵，其中，

为BiLSTM中统一的隐层节点的数目，也即隐层向量维度的大小。在实际应用中，BiLSTM是神经网络中用以处理类似语音等时序信号的一种有效的网络结构模型，循环神经网络被广泛地用于解决长度可变的输入序列问题，长距离的历史信息被存储在一个循环的综合当前时刻和以往时刻信息的隐层向量当中，而BiLSTM是循环神经网络中能够在一定程度上解决循环神经网络中常见的梯度消失问题的一种模型。

在实际应用中，给定一个输入序列x＝(x₁,x₂,...,x_n)，其中x_t是在t时刻的输入向量，在本发明中，可以将x_t视为输入BiLSTM的矩阵，求解能够存储综合当前时刻和以往时刻信息的隐层向量，具体如公式(1)所示：

在BiLSTM的结构中，包含三个门，分别为输入门i、遗忘门f、输出门c以及一个存储单元o，其中，输入门可以决定输入向量如何改变存储单元的状态，输出门决定存储单元对于输出产生何种影响，遗忘门起到决定存储单元记住或者忘记多少其前一时刻状态的作用。

经典的长短时记忆网络模型只有一个方向，无法利用后续输出的信息，而本发明采用的BiLSTM能够从顺序和逆序两个方向分别对输入序列执行循环处理，同时利用到了目标时刻之前和之后的信息。另外，BiLSTM能够将上一层网络的输出直接给下一层网络作为其输入，多层的设置使得网络能够更好地表征能力，学习出更为复杂的隐层特征。

在本发明实施例的一种优选实施例中，“将第一隐层向量和与其对应时刻的第二隐层向量进行融合”，融合方法包括将第一隐层向量与第二隐层向量相加、或者求解第一隐层向量与第二隐层向量的平均值、或者将第一隐层向量与第二隐层向量首尾拼接。

BiLSTM从顺序和逆序两个方向分别对矩阵进行编码后，将得到两个隐层向量，将其分别记为第一隐层向量和第二隐层向量，通过融合的方式将第一隐层向量和第二隐层向量合并为第三向量，其中，融合的方式可以是将两个隐层向量相加、求平均值或者直接拼接。以输入向量为x＝(x₁,x₂,...,x_n)为例，从顺序方向对输入向量进行编码后得到

从逆序方向对输入向量进行编码后得到

其中，

和

为对应时刻。相加的融合方式为两个方向对应时刻的向量直接相加，得到

类似地，求解两个向量的平均值为求解每个对应时刻向量的平均值。拼接是指将每个对应时刻的向量首尾相连，则原有的两个大小为

的二维矩阵变为

将进行融合后的隐层向量进行再次编码和尺度变换，从

的二维矩阵通过一个全连接层转化为(t,F*Embedding)的二维特征，并进一步转化尺度变为(t,F,Embedding)的三维特征表示，即将语音中的每个时间-频率点的表示由一个数变为一个向量。

步骤S3：利用长时记忆单元存储说话人以及与其对应的语音向量；

在本发明实施例的一种优选实施例中，采用Key-Value形式将说话人与其对应的语音向量存储在长时记忆单元中，其中，Key存储说话人的索引，Value存储该说话人对应的语音向量。

如图4所示，图4为本发明实施例中记忆单元存储过程的示意图，在记忆空间容量为Memory-Size的长时记忆单元中，存储的是从模型训练或测试过程中记录下来的说话人和其对应的语音信息特征。每个单元以Key-Value的形式存储数据，其中，Key存储说话人的索引，Value存储该说话人对应的语音向量。为了能够更好地记忆语音信息，每个单元中还有一个Age记录当前记忆单元所存储的信息的时长信息。

需要说明的是，当长时记忆单元中存储的说话人产生新的语音时，提取说话人的语音向量，并更新该说话人的语音向量，使其替换长时记忆单元中该说话人原有的语音向量。

在实际应用中，在长时记忆单元中已经存在的说话人的信息也会依照数据进行更新，类似在对一个不熟悉的人的声音进行记忆时，需要经过反复多听几次该说话人的声音而固化记忆的过程。以长时记忆单元中存在的说话人Spk的语音向量为v1为例，当该说话人产生新的语音时，提取该说话人的语音向量，并更新该说话人的语音向量，将其替换掉原有的语音向量。在本发明实施例中，以Spk表示确定的说话人，以Unk表示没有确定的说话人。

具体地，提取说话人的语音向量后，将其与长时记忆单元中该说话人原有的语音向量相加，将得到的结果进行幅值归一化处理，具体如公式(2)所示：

其中，q表示说话人产生的新的语音向量，v1表示说话人原有的语音向量，v表示说话人更新后的语音向量。

其中，除了上述更新方式外，还可以进行全局平均以及累加等操作完成更新。

步骤S4：从长时记忆单元中获取目标说话人对应的语音向量，根据目标说话人对应的语音向量，通过注意力选择模型从原始语音信号中分离出目标语音；

长时记忆单元存储目标说话人及其对应的语音向量后，当想要从原始语音信号中分离出目标语音后，只需要明确目标说话人，在根据目标说话人从长时记忆单元中获取其对应的语音信号，通过注意力选择模型从原始语音信号中分离出目标语音。利用融合在神经网络中的长时记忆单元，可以保存一些罕见的信息，可以有效地解决传统神经网络中训练数据和测试数据必须独立分布才能工作的问题。

在本发明的实施例的一种优选的实施例中，“从长时记忆单元中获取目标说话人对应的语音向量”，其方法为：

在说话人与其对应的语音向量之间建立映射矩阵，根据映射矩阵，由目标说话人查询得到对应的语音向量，或者将目标说话人的语音输入BiLSTM，在时间维度上求解BiLSTM输出的平均值，将其作为目标说话人对应的语音向量。

在实际应用中，将目标语音从混杂语音中分离出来，需要将环境中目标说话人从混杂人群中分离出来，找到目标说话人之后，从事先建立的说话人和与其对应的语音向量的关系中，找到目标语音向量。在本发明实施例中，采用两种方式从长时记忆单元中获取目标说话人对应的语音向量。

第一种方式，在说话人和与其对应的语音向量之间建立映射矩阵，当确定目标说话人之后，从映射矩阵中通过查表的方式，得到其对应的语音向量。建立映射矩阵的方式简单，但是实际查询过程中速度较慢；

第二种方式，将确定目标说话人之后，将其语音输入BiLSTM，BiLSTM通过计算之后输出，再在时间维度上求解其模型输出的平均值，并将该平均值作为目标说话人对应的语音向量。该方式不需要建立说话人和与其对应的语音向量之间的关系，可以直接通过说话人的语音计算出其语音向量，能够快速地得出结果，但是对系统的计算能力要求较高。

本发明实施例的一种优选实施例中，说话人的语音通过不同的驱动方式与长时记忆单元发生读取或者写入的行为，再从长时记忆单元中输出目标说话人的目标语音。

如图5所示，图5为本发明实施例中不同驱动方式下听觉选择的流程示意图，在具体的应用场景中，驱动方式包括任务驱动型和刺激驱动型，其中，在任务驱动型的听觉注意场景中，目标说话人的信息存储在长时记忆单元中，并且目标说话人的身份已经明确，长时记忆单元直接通过事先存储的目标说话人的编号提取对应目标语音向量；在刺激驱动型的听觉注意场景中，长时记忆单元中没有存储目标说话人的信息，则需要通过事先训练好的BiLSTM对当前时刻引起注意的显著音进行声纹特征提取，并在线更新到长时记忆单元中，然后利用该声纹特征从原始语音中进行听觉注意选择，分离出目标语音。

本发明实施例的一种优选实施例中，“通过注意力选择模型从原始语音信号中分离出目标语音”，其方法为：

将目标说话人对应的语音向量与原始语音信号转化的语音向量进行相似度计算，得到目标语音的信息掩蔽；

计算目标语音的信息掩蔽与原始语音信号中对应点的加权值，得到输出时频图；

通过逆快速傅里叶变化iSTFT将输出时频图转化为目标语音。

如图6所示，图6为本发明实施例中将目标语音的时频图转换为目标语音的示意图，在本发明中，得到目标说话人对应的语音向量后，将其与原始语音信号转化的原始语音向量通过相似度计算方法进行度量，得到目标语音的信息掩蔽。其中，语音掩蔽是指语音分离中理想的时频浮值掩蔽M_s∈R^t*f，t表示该语音不同时间，对应采样过后的不同帧，f表示频率，对应经过快速傅里叶变换之后的各个频率段。得到目标语音的浮值掩蔽后，将其与原始语音在时频谱上的每一个点进行乘积运算，即可得到目标语音的时频图。得到目标语音的时频图后，通过iSTFT(inverse Short-Time Fourier Transform，逆快速傅里叶变化)将目标语音的时频图转化为目标语音。其中，相似度计算方法具体如公式(3)所示：

α_t,f＝sigmod(g^Ttanh(Wv+Uh_t,f)) (3)

其中，v表示目标用户的语音向量，h_t,f表示原始语音中的时频点的编码向量，α_t,f表示原始语音时频点的掩蔽值大小，W表示与目标用户作用的空间转换矩阵、U表示与原始语音每个时频点的编码向量相作用的空间转换矩阵，g表示在前二者转换到相同空间之后的相似度度量矩阵。

如图7所示，图7为本发明实施例中基于记忆和注意力模型的听觉选择方法的结构示意图，本发明将原始语音信号编码为包含时间-频率维度的矩阵，对得到的矩阵进行编码和变换，将其转化为语音向量，利用长时记忆单元存储说话人以及与其对应的语音向量，从长时记忆单元中获取目标说话人对应的语音向量，根据目标说话人对应的语音向量，通过注意力选择模型从原始语音信号中分离出目标语音。相比现有技术，本发明不需要固定或者指定说话人的数目，可以直接对混叠语音进行测试。

至此，通过上述方式可以从原始语音中分离出特定说话人的目标语音，为了准确评估本发明方法的听觉选择及目标语音分离的性能，本发明采用语音分离中的BSS_EVAL(blind source separation，盲源信号分离评测)工具中的GNSDR(global signal-to-distortion improvement，全局信号失真改善)作为衡量指标，测试输出的听觉选择或语音分离的性能。

如表1所示，为本发明实验中采用的参数设置表，本发明的实验中分别采用英文语音数据集Wall Street Journal和中文语音数据集Tsinghua Chinese 30hour构造原始语音数据和目标分离语音数据，并按照一定的规模分成训练、验证和测试数据集。

表1实验数据集设置结果表

具体地，参照表1，从两种数据集中选取了10个说话人(每个人包含多条不同的语音)用以构建步骤任务驱动型数据，其中WSJ0中10个人包括4男6女，THCHS-30中包括2男8女。将选出的10个人中随机两人的随机一条语音进行两两混合之后，构造出规模为4410、810、2250的训练、验证和测试混合语音数据样本。另外，从之前的10个说话人以外随机选取5个说话人(每个人包含多条不同的语音)，分别按照与上述方式同样的方式混合出各自500条语音数据样本，用来在测试任务驱动型训练好之后的网络模型在刺激驱动的情况下的表现。

为了能够进行公平、合理的对比，在本发明的方法和对比方法的所有实验中，均采用相同的参数设置，采用的相同参数具体如下：

重采样率为8Khz，STFT的窗口长度为32ms，采用正弦窗函数，跳跃大小长度为16ms，BiLSTM的层数为2层，隐层单元的大小为300，，输出维度为40，Embedding为40。

如表2所示，为本发明任务驱动型与对比方法的对比结果表，本方法与对比方法在训练完成之后，在WSJ0和THCHS-30任务驱动型测试数据集上的对比结果如表2所示，表中数据是采用了不同方法之后的GNSDR，每个实验都重复了五次计算其平均结果。

表2任务驱动型与对比方法的对比结果表

其中，对比的深度聚类方法包括原始方法和其各种不同设置的变种。具体地，DC(-40)是指在深度聚类方法中，把需要忽略的背景噪音的阈值设定为-40dB，即忽略掉比原始语音的时频信号的最高值小40dB以下的时频点的值(设置为0)。DC(-60)和DC(-80)方法与上述DC(-40)原理相同，原始DC方法则不忽略背景噪声点。ASAM-spk方法是在说话人和与其对应的语音向量之间建立映射矩阵，ASAM方法是将说话人语音输入BiLSTM后，求解其输出的平均值。

在表2中的测试实验数据中，两说话人是指原始二条不同说话人的语音混合后得到的测试数据，三说话人是在原始测试数据的基础上另外添加一条其他人的说话语音，两人+噪音是在原始测试数据的基础上增加了额外的从街边交叉路口环境下采集到的噪音。添加了另外一个人及噪音是为了对比本发明中的方法可以灵活地应对训练和测试数据中说话人个数不一致的问题，并有良好的抗噪性能。

实验结果显示，在任务驱动型的设置下，尽管只从两个说话人的混叠语音信号中进行训练，本发明的方法也可以很好地解决测试数据说话人的数目不固定的情况，且不需要告知说话人的数目。本方法中的ASAM-spk在大部分的设置下都取得了最好的结果，ASAM方法与目前最好的DC(-40)方法也大致可比。在添加了噪音之后，本方法也显示出很好的抗噪性能。另外，深度聚类的方法需要人为设定一个背景噪音阈值从而才能得到更好的性能，本发明方法则不需要，可以通过网络自行学习。

表3为本发明刺激驱动型与对比方法的对比结果表，本方法与对比方法在训练完成之后在WSJ0和THCHS-30刺激驱动型的测试数据集上的对比结果如下，表中数据是采用了不同方法之后的GNSDR。

表3刺激驱动型与对比方法的对比结果表

方法	WSJ0	THCHS-30
			DC	3.45	1.56
DC(-40)	5.84	5.34
			DC(-60)	5.23	5.17
DC(-80)	4.98	4.56
			ASAM	6.17	5.44

刺激驱动型的实验是在之前训练中没有听过的说话人的混叠语音中选择出其中一个人的声音，该人通过另外一段显著音的刺激作为其声纹提取的原始数据。从实验结果上看，即便在面对从来没听过的混叠语音时，本发明的方法依旧能够较好地完成对其中某个特定说话人的声音的选择。相比较传统的神经网络的方法对于集外训练数据完全无法正确使用的情况，本方法利用了一个融合在网络当中的长时记忆单元，有效地保存了罕见信息，解决了传统神经网络方法中训练和测试数据必须是独立同分布才能有效工作的问题。这表明本发明中的方法具有非常好的适应性和通用性，是一种对于语音声纹信息选择的有效方法。

所属技术领域的技术人员可以清楚地了解到，为了描述的方便和简洁，本发明实施例的存储装置的具体工作过程以及相关说明，可以参考前述基于记忆和注意力模型的听觉选择方法实施例中的对应过程，且与上述方法具有相同的有益效果，在此不再赘述。

所属技术领域的技术人员可以清楚地了解到，为了描述的方便和简洁，本发明实施例的处理装置的具体工作过程以及相关说明，可以参考前述基于记忆和注意力模型的听觉选择方法实施例中的对应过程，且与上述方法具有相同的有益效果，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于记忆和注意力模型的听觉选择方法，其特征在于，所述方法包括：

将原始语音信号编码为包含时间-频率维度的矩阵；

对所述矩阵进行编码和变换，将其转化为语音向量；

利用长时记忆单元存储说话人以及与其对应的语音向量；

从所述长时记忆单元中获取目标说话人对应的语音向量，根据所述目标说话人对应的语音向量，通过注意力选择模型从所述原始语音信号中分离出目标语音；

其中，所述“将原始语音信号编码为包含时间-频率维度的矩阵”的方法为：

将所述原始语音信号通过短时快速傅里叶变换STFT编码为包含时间-频率维度的矩阵；

其中，所述“对所述矩阵进行编码和变换，将其转化为语音向量”的方法为：

将所述第一隐层向量和与其对应时刻的第二隐层向量进行融合，得到第三隐层向量；

将所述第三隐层向量通过全连接层转化为语音向量；

其中，矩阵按顺序编号排列的时刻与矩阵按逆序排列相同编号的时刻互为对应时刻；

其中，所述“从所述长时记忆单元中获取目标说话人对应的语音向量”的方法为：

或者将目标说话人的语音输入BiLSTM，在时间维度上求解所述BiLSTM输出的平均值，将其作为所述目标说话人对应的语音向量；

其中，所述“通过注意力选择模型从所述原始语音信号中分离出目标语音”的方法为：

通过逆快速傅里叶变化iSTFT将所述输出时频图转化为目标语音；

其中，所述“利用长时记忆单元存储说话人以及与其对应的语音向量”，其方法为：

2.根据权利要求1所述的方法，其特征在于，所述“将原始语音信号编码为包含时间-频率维度的矩阵”之前，该方法还包括：

对所述原始语音信号进行重采样，对重采样后的语音信号进行滤波操作以便降低所述原始语音信号的采样率。

3.根据权利要求1所述的方法，其特征在于，利用BiLSTM对所述矩阵进行编码得到隐层向量，其公式为：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)

c_t＝f_tc_t-1+i_ttanh(W_xcx_t+W_hch_t-1+b_c)，

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t-1+b_o)

h_t＝o_ttanh(c_t)

4.根据权利要求1所述的方法，其特征在于，所述“将所述第一隐层向量和与其对应时刻的所述第二隐层向量进行融合”，融合方法包括将所述第一隐层向量与所述第二隐层向量相加、或者求解所述第一隐层向量与所述第二隐层向量的平均值、或者将所述第一隐层向量与所述第二隐层向量首尾拼接。

5.根据权利要求1所述的方法，其特征在于，所述“利用长时记忆单元存储说话人以及与其对应的语音向量”之后，该方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述“更新该说话人在所述长时记忆单元中存储的语音向量”，其方法为：

7.一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载并执行如权利要求1-6任一项所述的基于记忆和注意力模型的听觉选择方法。

8.一种处理装置，包括处理器、存储设备；处理器，适于执行各条程序；存储设备，适于存储多条程序；其特征在于，所述程序适于由处理器加载并执行如权利要求1-6任一项所述的基于记忆和注意力模型的听觉选择方法。