CN113593587B

CN113593587B - 语音分离方法及装置、存储介质、电子装置

Info

Publication number: CN113593587B
Application number: CN202110902416.2A
Authority: CN
Inventors: 司马华鹏; 王满洪; 汤毅平
Original assignee: Suqian Silicon Based Intelligent Technology Co ltd
Current assignee: Suqian Silicon Based Intelligent Technology Co ltd
Priority date: 2021-08-06
Filing date: 2021-08-06
Publication date: 2022-07-29
Anticipated expiration: 2041-08-06
Also published as: CN113593587A

Abstract

本申请实施例提供了一种语音分离方法及装置、存储介质、电子装置，所述方法包括：获取音频数据和与音频数据同步采集的至少一组视频数据，其中，音频数据中包含至少一个目标角色的混合语音数据；将音频数据按照时域进行切分，同时将视频数据转换为图像序列后提取图像特征向量；将切分后的音频数据和图像特征向量分别进行编码后按照时间信息进行融合，得到混合编码信息；根据混合编码信息输出至少一个目标角色的编码权重；根据至少一个目标角色编码权重和所述频数据输出至少一个目标角色的独立语音数据。

Description

语音分离方法及装置、存储介质、电子装置

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种语音分离方法及装置、存储介质、电子装置。

背景技术

语音分离技术是将一段混合语音中各说话人对应的语音段分离开的技术。在智能会议、鸡尾酒会等实际语音识别场景，很多时候系统接收到的语音是多个人同时说话的结果，为了识别每个参与者的说话内容，必须先将各个说话人的语音分离开，然后再根据分离出的结果才能更好地识别出各话者的对应文本。

现有的基于音视频结合的多模态语音分离技术，同时利用说话人的语音和图像信息来分离混合后的音频。其基本思路是：将视频按一定的帧率切割为静态的人脸图像，然后将一定长度的语音与对应长度的图像一起输入到编码器中，再通过解码器获取各说话人的mask权重，进而得到各说话人的语音。目前相关技术中的多模态分离技术都是在频域上处理语音，因而需要先分帧，为了保证语音信号的短时平稳性，帧长需取10-30ms范围,通常取25ms，为了保证模型效果，一般要做前后帧拼接，通常为前后各4帧，因此数据切分单位通常需要大于100毫秒，特别是结合语音识别做联合训练时数据长度需要3秒以上，才能保证模型效果，很难满足在线场景中的实时分离要求。

针对相关技术中，基于音视频结合的多模态语音分离技术无法实现实时语音分离的技术问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种语音分离方法及装置、存储介质、电子装置，以至少解决相关技术中基于音视频结合的多模态语音分离技术无法实现实时语音分离的技术问题。

在本申请的一个实施例中，提出了一种语音分离方法，包括：获取音频数据和与所述音频数据同步采集的至少一组视频数据，其中，所述音频数据中包含至少一个目标角色的混合语音数据；将所述音频数据按照时域进行切分，同时将所述视频数据转换为图像序列后提取图像特征向量；将切分后的所述音频数据和所述图像特征向量分别进行编码后按照时间信息进行融合，得到混合编码信息；根据所述混合编码信息输出至少一个目标角色的编码权重；根据至少一个所述目标角色的所述编码权重和所述音频数据输出至少一个所述目标角色的独立语音数据。

在本申请的一个实施例中，还提出了一种语音分离装置，包括获取模块，配置为获取音频数据和与所述音频数据同步采集的至少一组视频数据，其中，所述音频数据中包含至少一个目标角色的混合语音数据；预处理模块，配置为将所述音频数据按照时域进行切分，同时将所述视频数据转换为图像序列后提取图像特征向量；融合模块，配置为将切分后的所述音频数据和所述图像特征向量分别进行编码后按照时间信息进行融合，得到混合编码信息；第一输出模块，配置为根据所述混合编码信息输出至少一个目标角色的编码权重；第二输出模块，配置为根据至少一个所述目标角色的所述编码权重和所述音频数据输出至少一个所述目标角色的独立语音数据。

在本申请的一个实施例中，还提出了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在本申请的一个实施例中，还提出了一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本申请实施例，获取音频数据和与音频数据同步采集的至少一组视频数据，其中，音频数据中包含至少一个目标角色的混合语音数据；将音频数据按照时域进行切分，同时将视频数据转换为图像序列后提取图像特征向量；将切分后的音频数据和图像特征向量分别进行编码后按照时间信息进行融合，得到混合编码信息；根据混合编码信息输出至少一个目标角色的编码权重；根据至少一个目标角色编码权重和所述频数据输出至少一个目标角色的独立语音数据。解决了相关技术中基于音视频结合的多模态语音分离技术无法实现实时语音分离的技术问题，通过音视频结合，实现了基于多模态的语音分离，进而显著改善了语音分离的准确性，同时，实现语音分离过程中在时域上进行处理，进而实现了语音分离的实时性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的语音分离方法流程图；

图2是根据本申请实施例的一种可选的语音分离模型结构图；

图3是根据本申请实施例的一种可选的语音分离装置结构框图；

图4是根据本申请实施例的一种可选的电子装置结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

如图1所示，本申请实施例提供了一种语音分离方法，包括：

步骤S102，获取音频数据和与音频数据同步采集的至少一组视频数据，其中，音频数据中包含至少一个目标角色的混合语音数据；

步骤S104，将音频数据按照时域进行切分，同时将视频数据转换为图像序列后提取图像特征向量；

步骤S106，将切分后的音频数据和图像特征向量分别进行编码后按照时间信息进行融合，得到混合编码信息；

步骤S108，根据混合编码信息输出至少一个目标角色的编码权重；

步骤S110，根据至少一个目标角色的编码权重和音频数据输出至少一个目标角色的独立语音数据。

需要说明的是，本申请实施例提供的语音分离方法程序可以搭载在终端或服务器上实现，可以通过摄像设备来获取说话人(相当于目标角色)的视频数据，通过拾音设备来获取说话人的音频数据，摄像设备、拾音设备可以和搭载上述方法程序的服务器集中在同一台终端设备上，也可以在不同的终端设备上，本申请实施例对此不做限定。

需要说明的是，本申请中，语音分离的操作过程可与其余相关语音处理操作解耦，且并不依赖于其余语音处理操作中得到的信息，故而本申请中的语音分离方法的应用场景没有任何的限制，可搭载于如语音识别、语音增强、声纹处理等相关语音领域，进而扩展了本申请中语音分离的适用性。较于此，相关技术中的语音分离技术往往和单一的应用场景，如语音识别等高度绑定，并且其依赖于语音识别等提供的相关数据，故仅能应用于预设的应用场景，无法扩展至其余场景的运用。

在一实施例中，将音频数据按照时域进行切分，包括：

将所述音频数据按照预设时间段切分为多帧音频数据，其中，所述预设时间段小于或等于预设阈值。通常而言，预设阈值可为8ms。

需要说明的是，在获取音频数据后，需要对输入的音频数据进行预处理。首先用ffmpeg或其它工具将音频从视频流中分离出来，或者用音频设备单独采集音频流，获得的音频按照预设的时间段进行切分，本申请实施例中将切分时间段设定为3-8ms，优选为5ms，在这个时间段内切分的音频流更有效保证语音分离的实时性。

同时，本申请中的音频数据按照时域进行切分，其支持最小长度为5毫秒，完全可以实时分离混合语音，较于此，相关技术中针对语音或音频特征大多采用的是频谱，数据处理长度是3秒，不支持实时分离。故而本申请中的语音分离技术较于相关技术还可以实现实时性的语音分离，以进一步增加语音分离在对实时性存在需求的应用场景中的适用性。

在一实施例中，将视频数据转换为图像序列后提取图像特征向量，包括：

将视频数据转换为图像序列；

使用n帧长度的滑动窗口提取图像特征向量，其中，n为大于1的整数。

在一实施例中，使用n帧长度的滑动窗口提取图像特征向量，包括：

以当前帧图像为基准，向左滑动n-1帧图像后，提取图像特征向量；

在当前帧图像的左侧图像不足n-1帧的情况下，复制当前滑动窗口内的第一帧图像作为填充；

在第一滑动窗口内的n帧图像中的至少一帧图像不包含人脸信息的情况下，丢弃第一滑动窗口内的n帧图像。

需要说明的是，在获取视频数据后，需要对输入的视频数据进行预处理。首先用ffmpeg工具将抓捕的视频流转换为图像，为了提升模型效果，更多的考虑前后图像间的相关性，设置了一个长度为n的滑动窗口，以当前图像为单位，向左扩展两帧(为避免图像帧延时，不向右扩展)，最终一次输入的图像共计n帧。以n为3为例，开始位置不够3帧时，使用边缘填充，即复制第一帧图像。在训练阶段，如果3帧图像中有一帧里面没有具体的人脸信息，则丢弃本次数据。最后可以用Google FaceNet的预训练模型来提取人脸的embedding特征。

在一实施例中，将切分后的音频数据和图像特征向量分别进行编码后按照时间信息进行融合，得到混合编码信息，包括：

将切分后的音频数据输入音频编码器，经过卷积处理后得到音频编码信息；

将图像特征向量输入视频编码器，经过卷积处理后得到视频编码信息；

将处于同一时间段的音频编码信息和视频编码信息进行融合，得到混合编码信息。

需要说明的是，在对视频数据和音频数据预处理后，需要对视频数据和音频数据分别编码。例如，视频编码器可以将每个角色的embedding特征输入到3*1024的卷积结构中,然后再经过一个6层的1*256的卷积网络，最后每个角色都获得一个1*256的编码信息。音频编码器首先将输入的5ms音频输入到一个1维卷积网络中，然后分别用sigmoid和Rule函数来激活，将二者结果相乘后，得到音频的编码信息。当然，上述卷积结构的维度和卷积网络的层数也可以根据实际需要设定为其他数值，本申请实施例对此不做限定。

将以上音频的编码信息和多个角色的视频编码信息进行融合，然后在变换到一个1*L的线性网络中，其中L表示输入的音频数据长度，即时长乘采样率。映射后的结果为编码器最终的混合编码结果。

在一实施例中，根据混合编码信息输出至少一个目标角色的编码权重，包括：

混合编码信息输入分离网络模型，其中，分离网络模型是使用第一样本数据对时间循环神经网络模型进行训练后得到的模型，第一样本数据包括多个角色的混合语音数据和每个角色对应的权重标签；

通过分离网络模型输出至少一个目标角色的所述编码权重。

例如，分离网络模型可以由两层LSTM网络与3层全连接层组成，输入混合编码后，输出各角色的编码权重。

在一实施例中，根据至少一个目标角色的编码权重和音频数据输出至少一个目标角色的独立语音数据，包括：

将至少一个目标角色的编码权重和切分前的音频数据点乘，得到点乘后的数据；

将点乘后的数据输入语音分离网络模型，其中，语音分离神经网络模型是使用第二样本数据对基函数神经网络模型进行训练得到的模型，第二样本数据包括：多个角色的混合语音数据、每个角色对应的权重以及每个角色对应的独立语音数据。

将分离网络得到的编码权重与原混合语音段点乘，然后再输入到一个basis网络中，basis包括一个线性层，以及反l2正则化的操作，然后得到语音分离结果。训练目标用的是排列不变性准则排列不变性训练(Permutation Invariant Training，简称为PIT)，通过输出所有可能的排列组合，然后选择均方误差(MSE)最小的组合作为优化目标，因而每次的输出不会乱序，最终可以将各个位置输出后的多个音频片段整合成为一个长音频，得到各目标分离结果。

本申请中，获得音视频信息后，先通过编码器，计算语音和图像信息各自的编码，然后将编码信息进行融合，之后通过分离网络对混合编码进行分离，获取各角色的编码权重，最后在解码器中利用各角色的编码权重和混合语音还原出对应的语音。本申请在结合音视频特征信息的同时，网络结构的输入长度仅为3-8ms，极大满足在线场景下的低延迟需求，很好地支撑实时语音分离的功能。

如图2所示，本申请实施例还提供了一种语音分离模型，包括预处理模块、编码模块、分离模块、解码模块。预处理模块对音视频进行预处理，处理过程与前述一致，此处不再赘述。编码模块分别对音频和视频进行编码，最后得到一个混合结果。分离模块用于输出各目标角色的编码权重。解码模块用于根据至少一个目标角色的编码权重和音频数据输出至少一个目标角色的独立语音数据。

如图3所示，本申请实施例还提供了一种语音分离装置，用于实现上述任一项方法实施例中的步骤，重复的内容此处不再赘述。

该装置包括：

获取模块302，配置为获取音频数据和与音频数据同步采集的至少一组视频数据，其中，音频数据中包含至少一个目标角色的混合语音数据；

预处理模块304，配置为将音频数据按照时域进行切分，同时将视频数据转换为图像序列后提取图像特征向量；

融合模块306，配置为将切分后的音频数据和所述图像特征向量分别进行编码后按照时间信息进行融合，得到混合编码信息；

第一输出模块308，配置为根据混合编码信息输出至少一个目标角色的编码权重；

第二输出模块310，配置为根据至少一个目标角色的编码权重和音频数据输出至少一个目标角色的独立语音数据。

下面通过两个具体示例来说明本申请实施例语音分离的实现过程。

示例性实施例1

单通道目标说话人提取示例。

智慧大屏是目前落地比较成功的人工智能产品。用户通过语音与大屏来交互，查询需要的信息。然而，主用户在说话发出指令时，大屏附近一般都会有其它说话人在讲话，干扰大屏的拾音。主用户的声音与其它干扰声源混合后，语音识别系统就很难识别出用户的真实指令。这就需要对主用户的声音进行提取，然而单声道目标语音提取非常困难，目前还很难达到商用效果。

但是大屏中一般都会配置一个前置摄像头，以捕捉用户动作和人脸信息，用于提升用户交互体验。如果利用该摄像头中的视频信息，就可以实现我们的语音分离方案。分离过程如下：

用户发出语音指令时，大屏录音设备即时录音，同时，大屏摄像头定位到用户的脸部，采样录制视频；采集的音频以5ms为单位，传输给本专利分离系统中的音频编码模块，采集的视频按照25帧率切分成为图像，每3帧一个单位组成一个数据块，利用预训练的人脸系统提取embedding信息后，传送给视频编码模块；接着编码模块分别计算视频和图像的编码信息，然后进行融合，再传输到分离模块，分离模块算出主用户的编码权重信息，并传送到解码器模块，解码器根据计算出的编码权重和混合语音，计算出该用户的语音信息，得到分离结果。

示例性实施例2

多人会议记录示例。

很多会议场景，要对每个参会者的说话内容进行记录。所以，首先得分离出各个说话人对应的语音，然后分别转录即可。会议室一般会布置好录音设备和一个摄像头。具体分离过程如下：

会议开始后，录音设备采集语音，按照5ms每块传输给本专利中的音频编码模块，同时视频采集现场图像，按照25的帧率切片获取用户图像，这里切片后的图像需要做进一步的处理，用人脸捕捉技术，将一张图像中的多个人脸分别切分出来，然后再归类，每个角色的3帧图像作为一次数据输入，传输到视频编码器中；视频编码模块计算出各自的编码信息后，融合到一起，传输给分离模块，分离模块分离出每个输入角色对应的编码权重信息，传输给解码模块，解码模块根据角色编码权重和混合语音，计算出每个角色对应的语音。

本申请提出了一种基于多模态的实时语音分离技术，在音频信息基础上，通过利用额外的视频信息，来提升语音分离的性能，并定义了一种支持实时分离的网络框架，可以结合音视频信息在线分离混合语音，在提高语音分离性能的同时，也支持低延时的流式分离。

根据本申请实施例的又一个方面，还提供了一种用于实施上述语音分离方法的电子装置，上述电子装置可以但不限于应用于服务器中。如图4所示，该电子装置包括存储器402和处理器404，该存储器402中存储有计算机程序，该处理器404被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取音频数据和与音频数据同步采集的至少一组视频数据，其中，音频数据中包含至少一个目标角色的混合语音数据；

S2，将音频数据按照时域进行切分，同时将视频数据转换为图像序列后提取图像特征向量；

S3，将切分后的音频数据和图像特征向量分别进行编码后按照时间信息进行融合，得到混合编码信息；

S4，根据混合编码信息输出至少一个目标角色的编码权重；

S5，根据至少一个目标角色的编码权重和音频数据输出至少一个目标角色的独立语音数据。

可选地，本领域普通技术人员可以理解，图4所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图4其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图4中所示更多或者更少的组件(如网络接口等)，或者具有与图4所示不同的配置。

其中，存储器402可用于存储软件程序以及模块，如本申请实施例中的语音分离方法和装置对应的程序指令/模块，处理器404通过运行存储在存储器402内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的语音分离方法。存储器402可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器402可进一步包括相对于处理器404远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器402具体可以但不限于用于储存语音分离方法的程序步骤。

可选地，上述的传输装置406用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置406包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置406为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器408，用于显示语音分离过程；和连接总线410，用于连接上述电子装置中的各个模块部件。

本申请的实施例还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S4，根据混合编码信息输出至少一个目标角色的编码权重；

可选地，存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的计算机程序，本实施例中对此不再赘述。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种语音分离方法，其特征在于，包括：

获取音频数据和与所述音频数据同步采集的至少一组视频数据，其中，所述音频数据中包含至少一个目标角色的混合语音数据；

将所述音频数据按照时域进行切分，同时将所述视频数据转换为图像序列后提取图像特征向量；

将切分后的所述音频数据和所述图像特征向量分别进行编码后按照时间信息进行融合，得到混合编码信息；

根据所述混合编码信息输出至少一个目标角色的编码权重；

根据至少一个所述目标角色的所述编码权重和所述音频数据输出至少一个所述目标角色的独立语音数据；

其中，所述根据至少一个所述目标角色的所述编码权重和所述音频数据输出至少一个所述目标角色的独立语音数据，包括：

将至少一个所述目标角色的所述编码权重和切分前的所述音频数据点乘，得到点乘后的数据；

将所述点乘后的数据输入语音分离网络模型，其中，所述语音分离神经网络模型是使用第二样本数据对基函数神经网络模型进行训练得到的模型，所述第二样本数据包括：多个角色的混合语音数据、每个所述角色对应的权重以及每个所述角色对应的独立语音数据。

2.根据权利要求1所述的方法，其特征在于，所述将所述音频数据按照时域进行切分，包括：

将所述音频数据按照预设时间段切分为多帧音频数据，其中，所述预设时间段的长度小于或等于预设阈值。

3.根据权利要求1所述的方法，其特征在于，所述将所述视频数据转换为图像序列后提取图像特征向量，包括：

将所述视频数据转换为图像序列；

使用n帧长度的滑动窗口提取所述图像特征向量，其中，n为大于1的整数。

4.根据权利要求3所述的方法，其特征在于，所述使用n帧长度的滑动窗口提取所述图像特征向量，包括：

以当前帧图像为基准，向左滑动n-1帧图像后，提取所述图像特征向量；

在所述当前帧图像的左侧图像不足n-1帧的情况下，复制当前滑动窗口内的第一帧图像作为填充；

在第一滑动窗口内的n帧图像中的至少一帧图像不包含人脸信息的情况下，丢弃所述第一滑动窗口内的n帧图像。

5.根据权利要求1所述的方法，其特征在于，所述将切分后的所述音频数据和所述图像特征向量分别进行编码后按照时间信息进行融合，得到混合编码信息，包括：

将切分后的所述音频数据输入音频编码器，经过卷积处理后得到音频编码信息；

将所述图像特征向量输入视频编码器，经过卷积处理后得到视频编码信息；

将处于同一时间段的所述音频编码信息和所述视频编码信息进行融合，得到所述混合编码信息。

6.根据权利要求1所述的方法，其特征在于，所述根据所述混合编码信息输出至少一个目标角色的编码权重，包括：

将所述混合编码信息输入分离网络模型，其中，所述分离网络模型是使用第一样本数据对时间循环神经网络模型进行训练后得到的模型，所述第一样本数据包括多个角色的混合语音数据和每个所述角色对应的权重标签；

通过所述分离网络模型输出至少一个所述目标角色的所述编码权重。

7.一种语音分离装置，其特征在于，包括：

获取模块，配置为获取音频数据和与所述音频数据同步采集的至少一组视频数据，其中，所述音频数据中包含至少一个目标角色的混合语音数据；

预处理模块，配置为将所述音频数据按照时域进行切分，同时将所述视频数据转换为图像序列后提取图像特征向量；

融合模块，配置为将切分后的所述音频数据和所述图像特征向量分别进行编码后按照时间信息进行融合，得到混合编码信息；

第一输出模块，配置为根据所述混合编码信息输出至少一个目标角色的编码权重；

第二输出模块，配置为根据至少一个所述目标角色的所述编码权重和所述音频数据输出至少一个所述目标角色的独立语音数据；

其中，所述第二输出模块还配置为：

8.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1至6任一项中所述的方法。

9.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至6任一项中所述的方法。