CN114333896A

CN114333896A - 语音分离方法、电子设备、芯片及计算机可读存储介质

Info

Publication number: CN114333896A
Application number: CN202011027680.8A
Authority: CN
Inventors: 卢恒惠; 秦磊; 张鹏; 许家铭; 徐波
Original assignee: Huawei Technologies Co Ltd; Institute of Automation of Chinese Academy of Science
Current assignee: Huawei Technologies Co Ltd; Institute of Automation of Chinese Academy of Science
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2022-04-12
Also published as: US20230335148A1; WO2022062800A1; EP4207195A4; EP4207195A1

Abstract

本申请实施例提供了一种语音分离方法，涉及电子设备领域。通过获取用户在说话过程中包含用户语音的音频信息及包含用户脸部的视频信息，并对所述音频信息进行编码得到混合声学特征，再从所述视频信息中提取所述用户的视觉语义特征，再将所述混合声学特征和所述视觉语义特征输入至预设视觉语音分离网络，得到所述用户的声学特征，最后对所述用户的声学特征进行解码，得到所述用户的语音信号。本申请实施例还提供了一种电子设备、芯片及计算机可读存储介质。本申请基于视觉语义特征对混合语音进行语音分离，可以从环境噪声干扰中准确地分离出目标说话者的语音。

Description

语音分离方法、电子设备、芯片及计算机可读存储介质

技术领域

本申请涉及终端技术领域，尤其涉及一种语音分离方法、芯片电子设备、芯片及计算机可读存储介质。

背景技术

语音交互技术已经越来越多地应用在实际产品中，如手机智能语音助手、智能音箱的语音控制、视频会议设备等。然而，在受嘈杂环境及周边人声干扰的情况下，会出现语音识别准确率低、通话质量下降等情形。为解决上述问题，业界提出了基于音视频融合的语音分离技术，该音视频融合的语音分离技术基于人脸表征进行语音分离，其基本思想是：利用预训练人脸模型提取人脸表征，然后基于人脸表征、混合语音及深度学习算法，提取指定说话人的语音。但该技术对未知说话者的泛化能力较差，即当目标说话人的语音未在训练数据集中出现过时，其语音分离的精度较差，导致用户使用体验较差，且语音分离的延迟较大，难以应用在实时语音分离的应用场景中。

发明内容

有鉴于此，有必要提供一种语音分离方法，其可克服上述问题，对未知说话者的泛化能力强，语音分离准确性高，提升用户使用体验。

本申请实施例第一方面公开了一种语音分离方法，包括：获取用户在说话过程中包含用户语音的音频信息及包含用户脸部的视频信息；对所述音频信息进行编码，得到混合声学特征；从所述视频信息中提取所述用户的视觉语义特征，所述视觉语义特征包括所述用户在说话过程中的面部运动特征；将所述混合声学特征和所述视觉语义特征输入至预设视觉语音分离网络，得到所述用户的声学特征；对所述用户的声学特征进行解码，得到所述用户的语音信号。

通过采用该技术方案，可实现基于视觉语义特征对包含有用户语音与环境噪声的混合语音进行语音分离，可准确地分离出所述用户的声音，提升用户使用体验。

在一种可能的实现方式中，所述音频信息为包含所述用户语音与环境噪声的混合语音信息，所述对所述音频信息进行编码，包括：基于卷积神经网络构建时域音频编码器；利用所述时域音频编码器对所述音频信息进行时域编码。

通过采用该技术方案，对混合语音进行时域编码，使得后续可以解码得到时域语音信号，减少语音相位信息损失，提升语音分离性能，且具有语音分离延时低的优点。

在一种可能的实现方式中，所述对所述用户的声学特征进行解码，得到所述用户的语音信号，包括：基于所述卷积神经网络构建时域音频解码器；利用所述时域音频解码器对所述用户的声学特征进行解码，得到所述用户的时域语音信号。

通过采用该技术方案，可以解码得到时域语音信号，减少语音相位信息损失，提升语音分离性能，且具有语音分离延时低的优点。

在一种可能的实现方式中，所述音频信息为包含所述用户语音与环境噪声的混合语音信息，所述对所述音频信息进行编码，包括：利用预设短时傅里叶变换算法对所述音频信息进行时域编码。

在一种可能的实现方式中，所述对所述用户的声学特征进行解码，得到所述用户的语音信号，包括：利用预设短时傅里叶逆变换算法对所述用户的声学特征进行解码，得到所述用户的时域语音信号。

在一种可能的实现方式中，所述从所述视频信息中提取所述用户的视觉语义特征，包括：将所述视频信息转换为按照帧播放顺序排列的图像帧；对每一所述图像帧进行处理，得到具有预设尺寸且包含所述用户脸部的多个人脸缩略图；将多个所述人脸缩略图输入至预设解耦网络，以提取所述用户的视觉语义特征。

通过采用该技术方案，实现基于视觉语义特征对包含有用户语音与环境噪声的混合语音进行语音分离，可准确地分离出所述用户的声音，提升用户使用体验。

在一种可能的实现方式中，所述对每一所述图像帧进行处理，得到具有预设尺寸且包含所述用户脸部的多个人脸缩略图，包括：定位每一所述图像帧中包含所述用户脸部的图像区域；对所述图像区域进行放大或缩小处理，得到具有所述预设尺寸且包含所述用户脸部的人脸缩略图。

在一种可能的实现方式中，所述将多个所述人脸缩略图输入至预设解耦网络，以提取所述用户的视觉语义特征，包括：将多个所述人脸缩略图输入至所述预设解耦网络；利用所述预设解耦网络将每一所述人脸缩略图映射成包含人脸身份特征和所述视觉语义特征的视觉表征，并从所述视觉表征中分离出所述视觉语义特征。

通过采用该技术方案，实现利用预设解耦网络从视觉表征中分离出视觉语义特征，实现对包含有用户语音与环境噪声的混合语音进行语音分离，可准确地分离出所述用户的声音，提升用户使用体验。

在一种可能的实现方式中，所述将所述混合声学特征和所述视觉语义特征输入至预设视觉语音分离网络，得到所述用户的声学特征，包括：获取所述混合声学特征的时间依赖关系，以基于所述混合声学特征的时间依赖关系得到深度混合声学特征；获取所述视觉语义特征的时间依赖关系，以基于所述视觉语义特征的时间依赖关系得到深度视觉语义特征；对所述深度混合声学特征与所述深度视觉语义特征进行模态融合，得到视听觉特征；基于所述视听觉特征预测得到所述用户的声学特征。

通过采用该技术方案，实现利用预设视觉语音分离网络对包含有用户语音与环境噪声的混合语音进行语音分离，可准确地分离出所述用户的声音，提升用户使用体验。

在一种可能的实现方式中，所述对所述深度混合声学特征与所述深度视觉语义特征进行模态融合之前，还包括：对所述深度混合声学特征与所述深度视觉语义进行时间维度同步处理，以使得所述深度混合声学特征的时间维度与所述深度视觉语义的时间维度保持同步。

在一种可能的实现方式中，所述基于所述视听觉特征预测得到所述用户的声学特征，包括：基于所述视听觉特征预测得到所述用户语音的掩蔽值；利用预设激活函数对所述掩蔽值进行输出映射处理；将经过所述预设激活函数处理的掩蔽值与所述混合声学特征进行矩阵点乘运算，得到所述用户的声学特征。

在一种可能的实现方式中，所述利用预设激活函数对所述掩蔽值进行输出映射处理，包括：若基于卷积神经网络对所述音频信息进行编码，利用sigmoid函数对所述掩蔽值进行输出映射处理；或若基于短时傅里叶变换算法对所述音频信息进行编码，利用Tanh函数对所述掩蔽值进行输出映射处理。

通过采用该技术方案，实现根据不同的音频编码算法，采用与该音频编码算法对应的激活函数来进行输出映射处理。

第二方面，本申请实施例提供一种计算机可读存储介质，包括计算机指令，当计算机指令在电子设备上运行时，使得电子设备执行如第一方面或第二方面所述的语音分离方法。

第三方面，本申请实施例提供一种电子设备，所述电子设备中至少安装代理服务进程，所述电子设备包括处理器和存储器，所述存储器用于存储指令，所述处理器用于调用所述存储器中的指令，使得所述电子设备执行如第一方面或第二方面所述的语音分离方法。

第四方面，本申请实施例提供一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行如第一方面或第二方面所述的语音分离方法。

第五方面，本申请实施例提供一种装置，该装置具有实现上述第一方面或第二方面所提供的方法中第一电子设备行为的功能。功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块。

可以理解地，上述提供的第二方面所述的计算机可读存储介质，第三方面所述的电子设备，第四方面所述的计算机程序产品，第五方面所述的装置均与上述第一方面的方法对应，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

附图说明

图1为本申请一实施例提供的语音分离装置的应用场景示意图；

图2为本申请一实施例提供的语音分离方法的流程示意图；

图3为本申请一实施例提供的预设解耦网络的网络结构示意图；

图4为本申请一实施例提供的预设视觉语音分离网络的网络结构示意图；

图5为本申请一实施例提供的语音分离装置的功能模块示意图；

图6为本申请一实施例提供的一种可能的电子设备的结构示意图；

具体实施方式

需要说明的是，本申请中“至少一个”是指一个或者多个，“多个”是指两个或多于两个。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不是用于描述特定的顺序或先后次序。

为了便于理解，示例性的给出了部分与本申请实施例相关概念的说明以供参考。

下面结合图1示例性的介绍本发明实施例提供的一种语音分离装置的应用场景示意图。语音分离装置可以设置在电子设备100中。

当用户使用电子设备100进行通话、视频会议、语音交互控制等过程中，如果用户当前所处的场景中包含其他人物发声或者其他物体的发声，可对用户语音进行分离与增强，从而突出用户语音，降低周围环境噪声对用户语音的干扰。

电子设备100可以是手机、电脑、智能家电、车机等设备。

参照图2所示，本申请实施例提供的一种语音分离方法，应用于电子设备100中。本实施例中，语音分离方法包括：

21、获取用户在说话过程中包含用户语音的音频信息及包含用户脸部的视频信息。

在一些实施例中，电子设备100可以包含有摄像功能以及拾音功能，比如电子设备100包括摄像头及麦克风，利用摄像头采集用户在说话过程中包含用户脸部的视频信息，利用麦克风采集用户在说话过程中包含用户语音的音频信息，进而可以从摄像头与麦克风中获取用户在说话过程中包含用户语音的音频信息及包含用户脸部的视频信息。

可以理解，摄像头采集到的视频信息不仅包含有用户脸部信息，可能还包含用户其他身体部位信息、当前拍摄背景信息、或者其他用户的身体部位信息。麦克风采集到的音频信息不仅包含有用户当前说话的语音，还可能包含有环境噪声。比如环境噪声为其他用户的声音和/或其他物体发出的声音。

22、对所述音频信息进行编码，得到混合声学特征。

在一些实施例中，可以采用预设音频编码器对所述音频信息进行编码，得到混合声学特征。所述预设音频编码器可以是基于卷积神经网络(Convolutional NeuralNetwork，CNN)构建得到的编码器，但并不以CNN为限，也可以是其他类型的神经网络，比如长短期记忆网络(Long Short-Term Memory，LSTM)、循环神经网络(Recurrent NeuralNetwork，RNN)等。采用CNN构建所述预设音频编码器的构建方式可以是现有方案记载的构建方式，在此不再赘述。

在一些实施例中，对音频信息处理一般包括时域处理与频域处理。时域处理与频域处理相比，时域处理可降低语音帧的长度，便于进行低延迟语音分离模型的设计，减少语音相位信息损失，进而可提升语音分离性能。该预设音频编码器优选是基于CNN构建得到的进行时域编码的音频编码器。

在一些实施例中，所述音频信息为包含有用户语音的混合语音，所述混合声学特征可以是指经过CNN编码得到的包含混合语音特征的向量。

在一些实施例中，也可以采用短时傅里叶变换算法对所述音频信息进行时域编码，得到混合声学特征。

23、从所述视频信息中提取所述用户的视觉语义特征。

在一些实施例中，所述述视觉语义特征包括所述用户在说话过程中的面部运动特征，例如嘴唇运动特征及脸颊运动特征。可以通过以下方式实现从所述视频信息中提取所述用户的视觉语义特征：

a.将所述视频信息转换为按照帧播放顺序排列的图像帧，并对所述图像帧进行处理，得到具有预设尺寸且包含所述用户脸部的人脸缩略图；

具体地，可以采用现有的视频解码技术解码所述视频信息得到按照帧播放顺序排列的多个图像帧，再采用现有的人脸检测技术定位每一图像帧中包含所述用户脸部的图像区域，最后对所述图像区域进行放大或缩小处理，得到具有所述预设尺寸且包含所述用户脸部的人脸缩略图。所述预设尺寸可以根据实际需求进行设定，比如预设尺寸为256*256，即将所述用户脸部的图像区域统一转换为256*256的人脸缩略图。

在一些实施例中，由于每一图像帧所包含所述用户脸部的图像区域大小可能不相同，为了实现统一转换为256*256的人脸缩略图，可能部分图像区域需进行放大处理，部分图像区域需进行缩小处理。具体地，可以根据实际定位到的用户脸部的图像区域的尺寸来确定是选择放大处理还是缩小处理，。

b.将多个所述人脸缩略图输入至预设解耦网络，以提取所述用户的视觉语义特征。

具体地，当得到预设尺寸的人脸缩略图时，可以将人脸缩略图输入至经过对抗训练的预设解耦网络中，利用该预设解耦网络提取所述用户的视觉语义特征。所述预设解耦网络的网络结构示意图如图3所示，所述预设解耦网络可以包括视觉编码器E_v、语音编码器E_a、分类器D₁、二分类鉴别器D₂及身份鉴别器Dis。

在一些实施例中，可以利用N个视频样例及N个音频样例来训练所述预设解耦网络，N为大于1的正整数：

i.进行联合视听表示的学习，将人脸缩略图映射成包含人脸身份特征和视觉语义特征的视觉表征；

在训练时，从大小为N的音频样例中，随机取第m个音频样例，从大小为N的视频样例中，随机取第n个视频样例。将标签定义为：当第n个视频样例与第m个音频样例相匹配时(即该音频样例为该视频样例的播放声音)，记为l_mn＝1，当第n个视频样例与第m个音频样例不匹配时，记为l_mn＝0。可以将第n个视频样例输入至视觉编码器E_v(基于CNN构建得到)，得到包含人脸身份特征和视觉语义特征的视觉表征f_v(n)，将第m个音频样例输入至语音编码器E_a(基于CNN构建得到)，得到包含声音特征的语音表征f_a(m)；

当得到视觉表征f_v(n)与语音表征f_a(m)后，可以通过以下三种处理方式来实现拉近视觉表征f_v(n)与语音表征f_a(m)的距离：

a).视觉表征f_v(n)与语音表征f_a(m)共享同一分类器D₁进行词级别的视听语音识别任务，并将损失记为；

其中，

是训练集中词的总数，p_k是真实的类别标签，每个类别标签可以对应一个词，k为大于零的正整数。

b).利用二分类鉴别器D₂来进行对抗训练，识别输入的表征是视觉表征还是音频表征；

首先冻结视觉编码器E_v和语音编码器E_a的权重(即固定视觉编码器E_v和语音编码器E_a的权重，使其权重不被训练)，训练二分类鉴别器D₂使其可以正确分辨出输入的表征是视觉表征还是音频表征，其训练损失记为

然后冻结二分类鉴别器D₂的权重，训练视觉编码器E_v和语音编码器E_a，使得二分类鉴别器D₂无法正确分辨出输入的表征是视觉表征还是音频表征，其训练损失记为

损失

与损失

如下所示：

其中，p_v＝0代表输入的表征是视觉表征，p_a＝1代表输入的表征是音频表征。

c).通过对比损失L_c来最小化视觉表征f_v(n)与语音表征f_a(m)的距离，损失_c定义如下：

其中，d_mn为视觉表征f_v(n)与语音表征f_a(m)之间的欧式距离，d_mn＝||f_v(n)-f_a(m)||₂；

ii.利用对抗的方式将视觉语义特征从所述视觉表征中分离出来。

首先冻结视觉编码器E_v的权重来训练身份鉴别器Dis，使得身份鉴别器Dis可以正确识别视频样例中每张人脸的身份，其训练损失记为

然后冻结身份鉴别器Dis的权重，训练视觉编码器E_v，使得经过视觉编码器E_v编码得到的视觉表征完全丢失身份信息(即丢失人脸身份特征)，其训练损失记为

对视觉编码器E_v训练完成后，若将视觉表征f_v(n)输入至视觉编码器E_v，对于每一类身份，倾向于输出相等的概率，即完全丢失了身份信息，可以用训练完成的视觉编码器E_v来将视觉语义特征从视觉表征中分离出来。每一类身份对应一个身份ID，代表一个人物。损失

与损失

如下所示：

其中，N_p是身份的种类，p^j是one-hot标签，与j为大于零的正整数。比如，N个视频样例总共包括10类身份(第一类身份至第十类身份)，若第一视频样例属于第一类身份，则对应的one-hot可以表示为“1000000000”，若第二视频样例属于第三类身份，则对应的one-hot可以表示为“0010000000”。

24、将所述混合声学特征和所述视觉语义特征输入至预设视觉语音分离网络，得到所述用户的声学特征。

在一些实施例中，所述预设视觉语音分离网络可以是基于时序卷积网络(Temporal Convolutional Network，TCN)构建的网络，所述预设视觉语音分离网络的网络结构示意图可以如图4所示，所述预设视觉语音分离网络包括第一TCN单元TCN-1、第二TCN单元TCN-2、第三TCN单元TCN-3、上采样单元Upsample、模态融合单元Modal_fusion、正则-卷积单元LN_convld、激活-卷积单元PreLU_convld、激活单元σ/Tanh及矩阵点乘单元Matrix_dm。

正则-卷积单元LN_convld用于对输入的混合声学特征进行正则化与一维卷积层处理；第一TCN单元TCN-1用于捕捉混合声学特征的时间依赖关系，得到深度混合声学特征；第三TCN单元TCN-3用于捕捉输入的视觉语义特征的时间依赖关系，得到深度视觉语义特征；上采样单元Upsample用于对深度视觉语义特征进行上采样，使其在时间维度与深度混合声学特征同步；模态融合单元Modal_fusion用于在通道维度对深度视觉语义特征与深度混合声学特征进行连接并经过一个线性层做维度变换，得到融合的视听觉特征，融合的视听觉特征可以通过以下算式进行表示：＝P([a；Upsample(V)])，其中f为融合的视听觉特征，即第二TCN单元TCN-2的输入，P为线性映射，为深度混合声学特征，V为深度视觉语义特征；第二TCN单元TCN-2与激活-卷积单元PreLU_convld用于根据融合的视听觉特征f预测所述用户语音的掩蔽值(mask)；激活单元σ/Tanh用于引入非线性特性对所述掩蔽值进行映射输出处理；矩阵点乘单元Matrix_dm用于将激活单元σ/Tanh输出的mask与混合声学特征进行矩阵点乘运算，得到所述用户的声学特征。

在一些实施例中，当采用CNN编码得到所述混合声学特征时，激活单元σ/Tanh可选使用sigmoid函数进行非线性特性引入，当采用短时傅里叶变换得到所述混合声学特征时，激活单元σ/Tanh可选使用Tanh函数进行非线性特性引入。

25、对所述用户的声学特征进行解码，得到所述用户的语音信号。

在一些实施例中，当通过所述预设视觉语音分离网络得到所述用户的声学特征时，可以采用预设音频解码器对所述用户的声学特征进行解码，得到所述用户的语音信号。所述预设音频解码器可以是基于CNN构建得到的解码器，但并不以CNN为限，也可以是其他类型的神经网络，比如LSTM、RNN等。采用CNN构建所述预设音频解码器的构建方式可以是现有方案记载的构建方式，在此不再赘述。

可以理解，当采用短时傅里叶变换算法对所述音频信息进行编码得到混合声学特征时，此时，可以采用短时傅里叶逆变换算法对所述用户的声学特征进行解码，得到所述用户的语音信号。

在一些实施例中，由于是采用CNN或者短时傅里叶变换算法对所述音频信息进行时域编码，解码得到的用户语音信号即为时域语音信号。

上述语音分离方法，基于视觉语义特征并在时域上对混合语音进行语音分离，可以从环境噪声干扰中准确、实时分离出目标说话者的语音，对于未知说话者的语音分离准确度高、泛化性强，语音分离延迟低，支持实时语音分离的应用场景。

参照图5所示，本申请实施例提供的一种语音分离装置110，可应用于图1所示的电子设备100中，电子设备100可以包含有摄像功能以及拾音功能。本实施例中，语音分离装置110可以包括获取模块101、编码模块102、提取模块103、分离模块104、解码模块105。

获取模块101用于获取用户在说话过程中包含用户语音的音频信息及包含用户脸部的视频信息。

编码模块102用于对所述音频信息进行编码，得到混合声学特征。

提取模块103用于从所述视频信息中提取所述用户的视觉语义特征，所述视觉语义特征包括所述用户在说话过程中的面部运动特征。

分离模块104用于将所述混合声学特征和所述视觉语义特征输入至预设视觉语音分离网络，得到所述用户的声学特征。

解码模块105用于对所述用户的声学特征进行解码，得到所述用户的语音信号。

可以理解，以上装置110中的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。例如，以上各个模块可以为单独设立的处理元件，也可以集成在终端的某一个芯片中实现，此外，也可以以程序代码的形式存储于控制器的存储元件中，由处理器的某一个处理元件调用并执行以上各个模块的功能。此外各个模块可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路芯片，具有信号的处理能力。该处理元件可以是通用处理器，例如中央处理器(central processing unit，CPU)，还可以是被配置成实施以上功能模块的一个或多个集成电路，例如：一个或多个特定集成电路(application-specific integrated circuit，ASIC)，或，一个或多个微处理器(digital signal processor，DSP)，或，一个或者多个现场可编程门阵列(field-programmable gate array，FPGA)等。

参考图6，为本申请实施例提供的电子设备100的硬件结构示意图。如图6所示，电子设备100可以包括处理器1001、存储器1002、通信总线1003、摄像头组件1004、麦克风组件1005及扬声器组件1006。存储器1002用于存储一个或多个计算机程序1007。一个或多个计算机程序1007被配置为被该处理器1001执行。该一个或多个计算机程序1007包括指令，上述指令可以用于实现在电子设备100中执行上述语音分离方法或者上述语音分离装置110。

可以理解的是，本实施例示意的结构并不构成对电子设备100的具体限定。在另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。

处理器1001可以包括一个或多个处理单元，例如：处理器1001可以包括应用处理器(application processor，AP)，图形处理器(graphics processing unit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，DSP，CPU，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

处理器1001还可以设置有存储器，用于存储指令和数据。在一些实施例中，处理器1001中的存储器为高速缓冲存储器。该存储器可以保存处理器1001刚用过或循环使用的指令或数据。如果处理器1001需要再次使用该指令或数据，可从该存储器中直接调用。避免了重复存取，减少了处理器1001的等待时间，因而提高了系统的效率。

在一些实施例中，处理器1001可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，SIM接口，和/或USB接口等。

在一些实施例中，存储器1002可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

摄像头组件1004用于拍摄说话者的脸部信息，以生成包含说话者脸部的视频信息，摄像头组件1004可以包括镜头、图像传感器、图像信号处理器等。麦克风组件1005用于录制说话者的声音及周围环境声音，得到包含用户语音的音频信息，麦克风组件1005可以包括麦克风及与麦克风配合的外围电路或元件。扬声器组件1006用于播放经过语音分离处理得到的说话者的声音，扬声器组件1006可以包括扬声器及与扬声器配合的外围电路或元件。

本实施例还提供一种计算机存储介质，该计算机存储介质中存储有计算机指令，当该计算机指令在电子设备上运行时，使得电子设备执行上述相关方法步骤实现上述实施例中的语音分离方法。

本实施例还提供了一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述相关步骤，以实现上述实施例中的语音分离方法。

另外，本申请的实施例还提供一种装置，这个装置具体可以是芯片，组件或模块，该装置可包括相连的处理器和存储器；其中，存储器用于存储计算机执行指令，当装置运行时，处理器可执行存储器存储的计算机执行指令，以使芯片执行上述各方法实施例中的语音分离方法。

其中，本实施例提供的第一电子设备、计算机存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

该作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种语音分离方法，包括：

获取用户在说话过程中包含用户语音的音频信息及包含用户脸部的视频信息；

对所述音频信息进行编码，得到混合声学特征；

从所述视频信息中提取所述用户的视觉语义特征，所述视觉语义特征包括所述用户在说话过程中的面部运动特征；

将所述混合声学特征和所述视觉语义特征输入至预设视觉语音分离网络，得到所述用户的声学特征；

对所述用户的声学特征进行解码，得到所述用户的语音信号。

2.如权利要求1所述的语音分离方法，其特征在于，所述音频信息为包含所述用户语音与环境噪声的混合语音信息，所述对所述音频信息进行编码，包括：

基于卷积神经网络构建时域音频编码器；

利用所述时域音频编码器对所述音频信息进行时域编码。

3.如权利要求2所述的语音分离方法，其特征在于，所述对所述用户的声学特征进行解码，得到所述用户的语音信号，包括：

基于所述卷积神经网络构建时域音频解码器；

利用所述时域音频解码器对所述用户的声学特征进行解码，得到所述用户的时域语音信号。

4.如权利要求1所述的语音分离方法，其特征在于，所述音频信息为包含所述用户语音与环境噪声的混合语音信息，所述对所述音频信息进行编码，包括：

利用预设短时傅里叶变换算法对所述音频信息进行时域编码。

5.如权利要求4所述的语音分离方法，其特征在于，所述对所述用户的声学特征进行解码，得到所述用户的语音信号，包括：

利用预设短时傅里叶逆变换算法对所述用户的声学特征进行解码，得到所述用户的时域语音信号。

6.如权利要求1所述的语音分离方法，其特征在于，所述从所述视频信息中提取所述用户的视觉语义特征，包括：

将所述视频信息转换为按照帧播放顺序排列的图像帧；

对每一所述图像帧进行处理，得到具有预设尺寸且包含所述用户脸部的多个人脸缩略图；

将多个所述人脸缩略图输入至预设解耦网络，以提取所述用户的视觉语义特征。

7.如权利要求6所述的语音分离方法，其特征在于，所述对每一所述图像帧进行处理，得到具有预设尺寸且包含所述用户脸部的多个人脸缩略图，包括：

定位每一所述图像帧中包含所述用户脸部的图像区域；

对所述图像区域进行放大或缩小处理，得到具有所述预设尺寸且包含所述用户脸部的人脸缩略图。

8.如权利要求6所述的语音分离方法，其特征在于，所述将多个所述人脸缩略图输入至预设解耦网络，以提取所述用户的视觉语义特征，包括：

将多个所述人脸缩略图输入至所述预设解耦网络；

利用所述预设解耦网络将每一所述人脸缩略图映射成包含人脸身份特征和所述视觉语义特征的视觉表征，并从所述视觉表征中分离出所述视觉语义特征。

9.如权利要求8所述的语音分离方法，其特征在于，所述将所述混合声学特征和所述视觉语义特征输入至预设视觉语音分离网络，得到所述用户的声学特征，包括：

获取所述混合声学特征的时间依赖关系，以基于所述混合声学特征的时间依赖关系得到深度混合声学特征；

获取所述视觉语义特征的时间依赖关系，以基于所述视觉语义特征的时间依赖关系得到深度视觉语义特征；

对所述深度混合声学特征与所述深度视觉语义特征进行模态融合，得到视听觉特征；

基于所述视听觉特征预测得到所述用户的声学特征。

10.如权利要求9所述的语音分离方法，其特征在于，所述对所述深度混合声学特征与所述深度视觉语义特征进行模态融合之前，还包括：

对所述深度混合声学特征与所述深度视觉语义进行时间维度同步处理，以使得所述深度混合声学特征的时间维度与所述深度视觉语义的时间维度保持同步。

11.如权利要求9所述的语音分离方法，其特征在于，所述基于所述视听觉特征预测得到所述用户的声学特征，包括：

基于所述视听觉特征预测得到所述用户语音的掩蔽值；

利用预设激活函数对所述掩蔽值进行输出映射处理；

将经过所述预设激活函数处理的掩蔽值与所述混合声学特征进行矩阵点乘运算，得到所述用户的声学特征。

12.如权利要求11所述的语音分离方法，其特征在于，所述利用预设激活函数对所述掩蔽值进行输出映射处理，包括：

若基于卷积神经网络对所述音频信息进行编码，利用sigmoid函数对所述掩蔽值进行输出映射处理；或

若基于短时傅里叶变换算法对所述音频信息进行编码，利用Tanh函数对所述掩蔽值进行输出映射处理。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1至权利要求12中任一项所述的语音分离方法。

14.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器用于存储指令，所述处理器用于调用所述存储器中的指令，使得所述电子设备执行权利要求1至权利要求12中任一项所述的语音分离方法。

15.一种芯片，与电子设备中的存储器耦合，其特征在于，所述芯片用于控制所述电子设备执行权利要求1至权利要求12中任一项所述的语音分离方法。