CN115910038A

CN115910038A - 语音信号的提取方法、装置、可读存储介质及电子设备

Info

Publication number: CN115910038A
Application number: CN202211179552.4A
Authority: CN
Inventors: 宫一尘; 李文鹏
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2022-09-27
Filing date: 2022-09-27
Publication date: 2023-04-04

Abstract

本公开实施例公开了一种语音信号的提取方法、装置、计算机可读存储介质及电子设备，其中，该方法包括：获取在目标区域内采集的多通道混合音频信号和图像序列；确定目标区域内的目标用户；基于图像序列，确定目标用户的唇部区域图像序列；基于唇部区域图像序列，确定唇部状态特征数据，以及确定目标用户的唇部与麦克风阵列的空间位置特征数据；基于多通道混合音频信号，确定音频特征数据；基于唇部状态特征数据、音频特征数据和空间位置特征数据，从多通道混合音频信号中提取目标用户的语音信号。本公开实施例实现了将多通道混合音频信号和空间位置特征数据结合进行多模态语音分离提高了语音信号提取的稳定性和准确性。

Description

语音信号的提取方法、装置、可读存储介质及电子设备

技术领域

本公开涉及计算机技术领域，尤其是一种语音信号的提取方法、装置、计算机可读存储介质及电子设备。

背景技术

随着人机交互方式的不断发展，人机交互的高效性、准确性、便捷性是相关领域研究的目标。多模态语音分离作为人机交互的一种方式，目前得到广泛的研究和应用。多模态语音分离是指将音频和图像相结合，使用神经网络等手段对听觉和视觉信号进行多模态融合来解决声源分离问题。这种方法通过对模型进行训练，使模型同时学习音频和图像的特征，通过图像作为辅助，更好地学习到音频中不同说话人的声音信息。

目前的多模态语音分离方法，通常对说话人的唇部图像的质量要求较高，在出现唇部遮挡或唇部图像不清晰时，对语音分离的效果影响较大。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种语音信号的提取方法、装置、计算机可读存储介质及电子设备。

本公开的实施例提供了一种语音信号的提取方法，该方法包括：获取在目标区域内采集的多通道混合音频信号和图像序列；确定目标区域内的目标用户；基于图像序列，确定目标用户的唇部区域图像序列；基于唇部区域图像序列，确定唇部状态特征数据；基于多通道混合音频信号，确定音频特征数据；基于唇部区域图像序列，确定目标用户的唇部与麦克风阵列的空间位置特征数据；基于唇部状态特征数据、音频特征数据和空间位置特征数据，从多通道混合音频信号中提取目标用户的语音信号。

根据本公开实施例的另一个方面，提供了一种语音信号的提取装置，该装置包括：获取模块，用于获取在目标区域内采集的多通道混合音频信号和图像序列；第一确定模块，用于确定目标区域内的目标用户；第二确定模块，用于基于图像序列，确定目标用户的唇部区域图像序列；第三确定模块，用于基于唇部区域图像序列，确定唇部状态特征数据；第四确定模块，用于基于多通道混合音频信号，确定音频特征数据；第五确定模块，用于基于唇部区域图像序列，确定目标用户的唇部与麦克风阵列的空间位置特征数据；提取模块，用于基于唇部状态特征数据、音频特征数据和空间位置特征数据，从多通道混合音频信号中提取目标用户的语音信号。

根据本公开实施例的另一个方面，提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序用于被处理器执行以实现执行上述语音信号的提取方法。

根据本公开实施例的另一个方面，提供了一种电子设备，电子设备包括：处理器；用于存储处理器可执行指令的存储器；处理器，用于从存储器中读取可执行指令，并执行指令以实现上述语音信号的提取方法。

基于本公开上述实施例提供的语音信号的提取方法、装置、计算机可读存储介质及电子设备，通过获取在目标区域内采集的多通道混合音频信号和图像序列，然后基于唇部区域图像序列，确定唇部状态特征数据，基于唇部区域图像序列，确定唇部状态特征数据和目标用户的唇部与麦克风阵列的空间位置特征数据，以及基于多通道混合音频信号，确定音频特征数据，最后基于唇部状态特征数据、音频特征数据和空间位置特征数据，从多通道混合音频信号中提取目标用户的语音信号。本公开实施例实现了将多通道混合音频信号和空间位置特征数据结合进行多模态语音分离，有效利用了唇部的空间位置和多个麦克风的位置之间的位置关系作为语音分离的辅助信息，更有针对性地对目标用户的唇部位置进行跟踪，提高了语音信号提取的准确性。在出现唇部遮挡或唇部图像质量较差的场景下，可以有效利用唇部和麦克风阵列的位置关系，降低图像质量变差造成的影响，进而提高了语音信号提取的稳定性。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开所适用的系统图。

图2是本公开一示例性实施例提供的语音信号的提取方法的流程示意图。

图3是本公开一示例性实施例提供的语音信号的提取方法的流程示意图。

图4是本公开一示例性实施例提供的语音信号的提取方法的流程示意图。

图5是本公开一示例性实施例提供的唇部位置所在的目标直线与所述麦克风阵列的基准线之间的角度的示意图。

图6是本公开一示例性实施例提供的语音信号的提取方法的流程示意图。

图7是本公开一示例性实施例提供的语音信号的提取方法的流程示意图。

图8是本公开一示例性实施例提供的语音信号的提取方法的流程示意图。

图9是本公开一示例性实施例提供的一个生成融合特征数据的示例性示意图。

图10是本公开一示例性实施例提供的语音信号的提取装置的结构示意图。

图11是本公开另一示例性实施例提供的语音信号的提取装置的结构示意图。

图12是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

申请概述

目前的多模态语音分离方法，通常对说话人的唇部图像的质量要求较高，在出现唇部遮挡或唇部图像不清晰时，不能充分利用视觉信息，对语音分离的效果影响较大。

本公开实施例旨在解决该问题，在确定音频特征数据和唇部状态特征数据的基础上，引入了表示唇部与麦克风阵列之间的位置关系的空间位置特征数据，利用这些特征数据进行语音分离，有效提高了提取目标用户的语音信号的稳定性和准确性。

示例性系统

图1示出了可以应用本公开的实施例的语音信号的提取方法或语音信号的提取装置的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101，网络102、服务器103、麦克风阵列104和相机105。网络102用于在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101通过网络102与服务器103交互，以接收或发送消息等。终端设备101上可以安装有各种应用，例如语音识别应用、图像识别应用、搜索类应用等。

麦克风阵列104和相机105用于采集多通道混合音频信号和目标用户的图像。麦克风阵列104和相机105可以与终端设备101直接连接，也可以通过网络102与终端设备101连接，麦克风阵列104和相机105也可以通过网络102与服务器103连接。麦克风阵列104和相机105设置在目标区域内，目标区域可以是任意类型的空间区域，例如车辆内、房间内等。

麦克风阵列104包括至少两个麦克风，对目标区域内的声音进行采集，得到多通道混合音频信号。

终端设备101可以是各种电子设备，包括但不限于诸如车载终端、移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、等等的移动终端以及诸如数字TV、台式计算机、智能家电等等的固定终端。

服务器103可以是提供各种服务的服务器，例如对终端设备101上传的音频信号、图像等进行处理的后台服务器。后台服务器可以利用接收的多通道混合音频信号和图像序列进行语音分离，获得目标用户的语音信号。

需要说明的是，本公开的实施例所提供的语音信号的提取方法可以由服务器103执行，也可以由终端设备101执行，相应地，语音信号的提取装置可以设置于服务器103中，也可以设置于终端设备101中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。在多通道混合音频信号和图像序列不需要从远程获取的情况下，上述系统架构可以不包括网络和服务器，只包括麦克风阵列、相机和终端设备。

示例性方法

图2是本公开一示例性实施例提供的语音信号的提取方法的流程示意图。本实施例可应用在电子设备(如图1所示的终端设备101或服务器103)上，如图2所示，该方法包括如下步骤：

步骤201，获取在目标区域内采集的多通道混合音频信号和图像序列。

在本实施例中，电子设备可以获取在目标区域内采集的多通道混合音频信号和图像序列。其中，目标区域可以是设置有如图1所示的麦克风阵列104和相机105的空间区域，目标区域的类型可以包括但不限于车辆内部、房间内部等。多通道混合音频信号可以是由麦克风阵列104采集的音频信号，该音频信号可以包括多个通道，每个通道即对应的一个麦克风采集的音频信号。多通道混合音频信号包括至少一个用户的语音信号和噪声信号等。图像序列可以是相机105对目标区域内的用户拍摄的图像。应当理解，本实施例中的多通道混合音频信号和图像序列是在相同时长(例如1秒)内同步采集的。

步骤202，确定目标区域内的目标用户。

在本实施例中，电子设备可以基于各种方式，确定目标区域内的目标用户。

可选的，相机可以对某个特定区域(例如车辆内的驾驶位、副驾驶位等)内的某个单独的用户拍摄，若电子设备从拍摄的图像序列中识别出该用户，则确定该用户为目标用户。相机也可以对多个用户拍摄，从拍摄的图像序列中识别出多个用户，电子设备将其中一个用户确定为当前执行该方法所针对的目标用户。例如，可以从识别出的多个用户中，确定位于指定的图像中央区域的用户为目标用户；或者，可以将每个用户均确定为目标用户，对于每个目标用户，均执行一次该方法；或者，可以根据预设的用户特征数据(例如脸部特征数据)，从图像序列中识别出与该用户特征数据匹配的用户，将该用户确定为目标用户。

可选的，电子设备还可以采用其他方式确定目标区域内的目标用户。例如，目标区域包括多个子区域(例如每个座位所在的区域为子区域)内，每个子区域内可以设置有按键，当电子设备检测到按键被按下，从图像序列中确定被按下的按键对应的子区域内的用户为目标用户。再例如，每个子区域内可以设置有麦克风，当电子设备检测到某个子区域对应的麦克风采集到语音信号且该麦克风采集的语音信号强度最大，则从图像序列中确定该子区域内的用户为目标用户。

步骤203，基于图像序列，确定目标用户的唇部区域图像序列。

在本实施例中，电子设备可以基于图像序列，确定目标用户的唇部区域图像序列。

具体地，图像序列中的图像可以包括目标用户的唇部区域，电子设备可以基于唇部图像检测方法(例如基于人脸关键点检测方法确定唇部区域图像)，从图像序列中包括的图像中分别提取唇部区域图像，得到唇部区域图像序列。

通常，可以将从图像序列中提取的唇部区域图像的尺寸调整为固定尺寸(例如96×96)，得到统一尺寸的唇部区域图像序列。

步骤204，基于唇部区域图像序列，确定唇部状态特征数据。

在本实施例中，电子设备可以基于唇部区域图像序列，确定唇部状态特征数据。其中，唇部状态特征数据用于表征口型的变化特征。通常，电子设备可以识别唇部区域图像序列中的每个唇部区域图像的唇部外形特征数据(例如，包括嘴角之间的距离、上下嘴唇之间的距离等)，将各个唇部区域图像的唇部外形特征数据合并为唇部状态特征数据。基于唇部区域图像序列，确定唇部状态特征数据，可以采用诸如唇语识别等方法实现，这里不再赘述。

步骤205，基于多通道混合音频信号，确定音频特征数据。

在本实施例中，电子设备可以基于多通道混合音频信号，确定音频特征数据。

具体地，上述音频特征数据可以是针对多通道混合音频信号中的任一通道的音频信号所确定出的；也可以分别确定每个通道的音频信号的特征数据，再将各通道的特征数据融合为上述音频特征数据。

可选的，电子设备可以基于神经网络的方法，确定一个通道的音频特征数据。例如，神经网络可以包括但不限于RNN(循环神经网络，Recurrent Neural Network)、LSTM(长短期记忆网络，Long Short-Term Memory)、UNet(U型网络)、Complex UNet等，以及基于自注意力机制及跨域注意力机制的Transformer架构。

步骤206，基于唇部区域图像序列，确定目标用户的唇部与麦克风阵列的空间位置特征数据。

在本实施例中，电子设备可以基于唇部区域图像序列，确定目标用户的唇部与如图1所示的麦克风阵列104的空间位置特征数据。

其中，空间位置特征数据用于表征目标用户的唇部与麦克风阵列104之前的空间位置关系。空间位置特征数据可以基于麦克风阵列的位置和目标用户的唇部之间的位置得到。麦克风阵列的位置可以预先标定，目标用户的唇部位置可以通过对唇部区域图像序列进行识别得到。例如，基于相机104的内参、外参、位姿信息等，将唇部区域在相机拍摄的原始图像中的二维坐标转换到相机坐标系或世界坐标系下的三维坐标。

作为示例，空间位置特征数据可以包括但不限于：唇部与麦克风阵列的基准点之间的距离，唇部位置与上述基准点之间的连线相对于麦克风阵列的基准线之间的角度，多通道混合音频信号中的每个通道的音频信号之间的相位差(表示从唇部位置发出的声音传递到各麦克风的路径之间的差别)等。

上述基准点、基准线和相位差的确定方法，可以参考下述可选实施例。

步骤207，基于唇部状态特征数据、音频特征数据和空间位置特征数据，从多通道混合音频信号中提取目标用户的语音信号。

在本实施例中，电子设备可以基于唇部状态特征数据、音频特征数据和空间位置特征数据，从多通道混合音频信号中提取目标用户的语音信号。

具体地，可以首先将唇部状态特征数据、音频特征数据和空间位置特征数据进行融合，得到融合特征数据，再采用诸如神经网络的方法对融合特征数据进行解码，得到掩码数据，将掩码数据与多通道混合音频信号中的任一通道的音频信号对应的频域数据(例如对一个通道的音频信号进行短时傅里叶变换得到)相乘，得到目标用户的语音信号的频域数据，然后对目标用户的语音信号的频域数据进行诸如逆傅里叶变换等处理，得到时域的语音信号。

本公开的上述实施例提供的方法，通过获取在目标区域内采集的多通道混合音频信号和图像序列，然后基于唇部区域图像序列，确定唇部状态特征数据，基于唇部区域图像序列，确定唇部状态特征数据和目标用户的唇部与麦克风阵列的空间位置特征数据，以及基于多通道混合音频信号，确定音频特征数据，最后基于唇部状态特征数据、音频特征数据和空间位置特征数据，从多通道混合音频信号中提取目标用户的语音信号。本公开实施例实现了将多通道混合音频信号和空间位置特征数据结合进行多模态语音分离，有效利用了唇部的空间位置和多个麦克风的位置之间的位置关系作为语音分离的辅助信息，更有针对性地对目标用户的唇部位置进行跟踪，从而提高了语音信号提取的准确性。在出现唇部遮挡或唇部图像质量较差的场景下，可以有效利用唇部和麦克风阵列的位置关系，降低图像质量变差造成的影响，进而提高了语音信号提取的稳定性。

在一些可选的实现方式中，如图3所示，步骤205包括：

步骤2051，对多通道混合音频信号进行频域转换，得到频域数据。

可选的，可以对任一通道的音频信号进行频域转换，得到频域数据，也可以对每个通道的音频信号均进行频域转换，得到多通道的频域数据，再将多通道的频域数据按照预设的融合方式(例如每个频点的频域数据取平均)融合为单通道的频域数据。

步骤2052，对频域数据进行压缩，得到压缩频域数据。

对频域数据进行压缩的方法可以基于各种方式实现，例如，可以采用指数压缩方法，即计算频域数据包括的所有数值取预设次(例如0.3)方。

步骤2053，利用预先训练的神经网络模型的音频编码网络，对压缩频域数据进行编码，得到音频特征数据。

音频编码网络可以采用各种神经网络结构实现，例如，RNN、LSTM、Complex UNet等，以及基于自注意力机制及跨域注意力机制的Transformer架构等。

本实施例通过对时域的多通道混合音频信号进行频域转换，再对频域数据进行压缩，得到压缩频域数据，可以缩小频域数据的数值范围，降低神经网络的数据处理难度，进而提高提取目标用户的语音信号的效率。

在一些可选的实现方式中，如图4所示，步骤206包括：

步骤2061，基于唇部区域图像序列和用于采集图像序列的相机的预设参数，确定表示目标用户的唇部的空间位置的唇部位置信息。

其中，相机的预设参数可以包括预先标定的内参、外参、位姿信息等，根据内参、外参、位姿信息，可以将唇部区域在拍摄的图像中的二维坐标转换到相机坐标系或世界坐标系下的三维坐标，从而得到唇部位置信息。从二维图像确定唇部区域的位置以及将二维图像中的唇部区域的位置转换到三维坐标系下的方法可以采用基于图像的坐标系转换的相关技术实现，这里不再赘述。

由于唇部区域图像序列是一段时间内采集的多帧图像，因此，唇部位置信息可以根据任一图像识别出，例如，可以是针对唇部区域图像序列中的最后一帧图像识别出的。可选的，还可以针对唇部区域图像序列中的多帧图像分别识别对应的唇部位置信息，再对这些唇部位置信息取平均，得到上述表示目标用户的唇部的空间位置的唇部位置信息。

步骤2062，基于唇部位置信息和麦克风阵列的预设位置信息，确定目标用户的唇部位置所在的目标直线与麦克风阵列的基准线之间的角度。

其中，预设位置信息可以是预先标定得到的。例如预先确定麦克风阵列在相机拍摄的二维图像中的坐标，再利用相机的内参、外参、位姿信息，将麦克风阵列的二维坐标转换到相机坐标系或世界坐标系下，从而得到麦克风阵列的预设位置信息。

由于麦克风阵列包括至少两个麦克风，因此，预设位置信息可以表示麦克风阵列范围内的某个设定的点，麦克风阵列的基准线可以是根据麦克风阵列的位置预先指定的直线。如图5所示，若麦克风阵列包括两个麦克风501和502，则两个麦克风之间的连线503可以为基准线，基准线的中点504可以作为基准点，该基准点在三维坐标系下的坐标即为预设位置信息。

上述目标直线可以是上述基准点与唇部位置之间的连线。如图5所示，唇部位置为505，目标直线506为唇部位置505与基准点504之间的连线，角度α即为目标直线506与基准线503之间的角度。

需要说明的是，图5仅仅是一个示例，不构成对基准点、基准线、目标直线的限定，上述基准线和基准点可以任意指定。例如，基准点可以是501或502表示的点，基准线可以是与线段503垂直的直线。

步骤2063，基于角度，确定目标用户的唇部位置与麦克风阵列之间的角度特征数据。

可选的，可以将上述角度确定为角度特征数据。也可以基于目前计算导向向量(steering vector)的相关技术，根据角度计算导向向量，将导向向量确定为角度特征数据。

步骤2064，基于角度特征数据，确定空间位置特征数据。

可选的，可以将角度特征数据确定为空间特征数据，也可以按照下述实施例提供的方法确定空间位置特征数据。

本实施例通过确定目标用户的唇部位置与麦克风阵列之间的角度特征数据，由角度特征数据可以准确地表示目标用户的唇部与麦克风阵列之间的相对位置关系，将角度特征数据作为提取目标用户的语音信号的辅助信息，有助于对唇部在三维空间的位置进行持续跟踪，从而提高提取目标用户的语音信号的稳定性。

在一些可选的实现方式中，在步骤201之后，还可以执行如下步骤：

确定表示多通道混合音频信号之间的相位差特征数据。

具体地，相位差特征数据表示麦克风阵列采集的多个通道的音频信号之间的相位差。通常，若麦克风阵列包括两个麦克风，则可以确定两个通道的音频信号之间的相位差，若麦克风阵列包括两个以上的麦克风，则可以以其中一个通道为基准通道，分别确定其他通道的音频信号与该基准通道的音频信号之间的相位差。

由于音频信号包含多种频率成分，因此，通常可以先将每个通道的音频信号通过诸如快速傅里叶变换方法转换到频域，并通过计算通道间相位差(IPD，Inter-channePhase Difference)的方法，确定每个频率成分的相位差，将各个频率成分的相位差的集合确定为相位差特征数据。

上述步骤2063可以如下执行：

基于角度和相位差特征数据，确定角度特征数据。

可选的，基于上述角度，可以利用计算导向矢量(steering vector)的方法，确定导向矢量。针对每个频率成分的信号，可以根据导向矢量和相位差，确定角度特征数据。例如可以确定相位差与导向矢量的差值，再取差值的余弦值或正弦值作为角度特征数据。

可选的，还可以基于上述角度和相位差特征数据，按照其他方法确定角度特征数据，例如，将上述角度和相位差特征数据合并，得到角度特征数据。

由于通道间的相位差可以表示目标用户的声音传递到各个麦克风经过的路径的差异，因此，本实施例通过将相位差特征数据与唇部相对于麦克风阵列的角度向结合，确定角度特征数据，可以使用角度特征数据准确地表示声源各个麦克风之间的声音传递路径差异，将其作为提取目标用户的语音信号的辅助信息，有助于利用目标用户的声音的传递路径，提高提取目标用户的语音信号的稳定性。

在一些可选的实现方式中，上述步骤2064可以如下执行：

基于角度特征数据和相位差特征数据，确定空间位置特征数据。

具体地，可以将角度特征数据和相位差特征数据合并为空间位置特征数据。

本实施例提供的空间位置特征数据包括角度特征数据和相位差特征数据，使空间位置特征数据的内容更加丰富，可以使空间位置特征数据更充分地表示唇部与麦克风阵列之间的位置关系和目标用户的声音的传递路径，从而有助于在后续的特征融合步骤中，使融合特征数据包含更丰富的空间位置特征数据，从而更准确地从多通道混合音频信号中提取目标用户的语音信号。

在一些可选的实现方式中，如图6所示，步骤207包括：

步骤2071，利用预先训练的神经网络模型的融合网络，对唇部状态特征数据、音频特征数据和空间位置特征数据进行融合，得到融合特征数据。

其中，对唇部状态特征数据、音频特征数据和空间位置特征数据进行融合可以通过各种方法实现，例如concat特征融合方法，elemwise_add特征融合方法，单门控(gate)特征融合方法，attention(注意力)特征融合方法等。

步骤2072，利用神经网络模型的解码网络，对融合特征数据进行解码，得到掩码数据。

通常，解码网络可以具有上采样的功能，融合特征数据通常是小尺度的特征数据，通过解码网络，可以将小尺度的融合特征数据进行上采样，得到与每个通道的频域数据(例如对一个通道的音频信号进行短时傅里叶变换得到)的尺度相同的掩码数据。

可选的，该神经网络模型可以与上述图3对应实施例描述的神经网络模型为同一模型，也可以是与图3对应实施例描述的神经网络模型不同的另一模型。

上述神经网络模型可以利用机器学习方法训练得到。神经网络模型可以包括上述音频编码网络，融合网络和解码网络。具体地，可以预先获取训练样本，训练样本包括样本待编码数据(即音频编码网络处理的数据，例如上述图3对应实施例中的频域数据或压缩频域数据)、样本唇部状态特征数据和样本空间位置特征数据，还包括标注掩码数据。可以将样本待编码数据作为音频编码网络的输入，并将音频编码网络输出的音频特征数据与样本唇部状态特征数据和样本空间位置特征数据进行融合，得到融合特征数据。再将融合特征数据输入解码网络，将与输入的样本待编码数据对应的标注掩码数据作为解码网络的期望输出，对初始神经网络模型进行训练，针对每次训练输入的样本待编码数据、样本唇部状态特征数据和样本空间位置特征数据，可以得到实际输出。其中，实际输出是初始神经网络模型实际输出的掩码数据。然后，可以采用梯度下降法和反向传播法，基于实际输出和期望输出之间的差距，调整初始神经网络模型的参数，使上述差距逐渐减小，将每次调整参数后得到的模型作为下次训练的初始神经网络模型，并在满足预设的训练结束条件(例如基于预设损失函数计算的损失值收敛，或训练次数超过预设次数等)的情况下，结束训练，从而训练得到上述神经网络模型。

步骤2073，基于掩码数据，从多通道混合音频信号中提取目标用户的语音信号。

掩码数据用于对单通道的音频信号的频域数据(例如对单通道的音频信号进行短时傅里叶变换得到)进行筛选，得到目标用户的语音信号的频域数据。可选的，掩码数据可以与上述单通道的音频信号的频域数据直接相乘，得到目标用户的语音信号的频域数据。然后，对目标用户的语音信号的频域数据进行诸如逆傅里叶变换等处理，得到时域的语音信号。

可选的，若音频特征数据按照上述图3对应实施例描述的方法得到，则可以将掩码数据与上述压缩频域数据相乘，得到目标用户的语音信号的压缩频域数据，再对目标用户的语音信号的压缩频域数据进行反压缩操作，得到目标用户的语音信号的频域数据，最后，对目标用户的语音信号的频域数据进行诸如逆傅里叶变换等处理，得到时域的语音信号。

需要说明的是，由于多通道混合音频信号包括多个通道的音频信号，掩码数据与单通道的音频信号的频域数据的尺度相同，因此，掩码数据可以与任一通道的音频信号的频域数据进行相关运算，从而从单通道的音频信号中提取出目标用户的语音信号。可选的，也可以将各个通道的音频信号的频域数据融合(例如通过每个频点的信号取均值等方式融合)为单通道的频域数据，然后将掩码数据与融合后的单通道的频域数据进行相关运算。

本实施例有效地利用了融合特征数据可以表示音频特征、唇部状态特征、唇部的空间位置特征的特点，使用经过机器学习方法训练的神经网络模型输出掩码数据，利用掩码数据可以更准确地从多通道混合音频信号中提取目标用户的语音信号。

在一些可选的实现方式中，如图7所示，步骤2073包括：

步骤20731，利用预设的激活函数，对掩码数据进行压缩，得到压缩数据。

对掩码数据进行压缩的目的是使掩码数据的数值范围缩小。作为示例，预设的激活函数可以是tanh激活函数，将掩码数据包括的每个数值输入tanh激活函数，可以得到一个处于0-1之间的数值。

步骤20732，基于压缩数据，从多通道混合音频信号中提取目标用户的语音信号。

具体地，可以将压缩数据与单通道的音频信号的频域数据相乘，得到目标用户的语音信号的频域数据。然后，对目标用户的语音信号的频域数据进行诸如逆傅里叶变换等处理，得到时域的语音信号。

本实施例通过对掩码数据进行压缩，可以缩小掩码数据的数值范围，使压缩后的掩码数据可以作为目用户的语音信号占原始音频信号的比重，从而更准确地提取目标用户的语音信号。

在一些可选的实现方式中，如图8所示，步骤2071包括：

步骤20711，利用融合网络包括的第一融合子网络对音频特征数据和空间位置特征数据进行第一融合处理，得到融合音频特征数据。

其中，第一融合处理可以采用各种方式实现，例如，可以采用concat特征融合方法将音频特征数据和空间位置特征数据融合，得到融合音频特征数据。

步骤20712，利用融合网络包括的第二融合子网络对融合音频特征数据和唇部状态特征数据进行第二融合处理，得到融合特征数据。

其中，第二融合处理可以采用各种方式实现，且第二融合处理可以与第一融合处理采用相同或不同的方式实现。例如，第二融合处理采用的方式可以包括但不限于：elemwise_add特征融合方法，单门控(gate)特征融合方法，attention(注意力)特征融合方法、双门控(dual gate)特征融合方法等。

参见图9，图9是根据本实施例的语音信号的提取方法的一个生成融合特征数据的示例性示意图。如图9所示，合并特征数据是将融合音频特征数据和唇部状态特征数据合并后的特征数据，图中所示的901-912为第二融合子网络包括的功能模块。合并特征数据经过第一卷积层和第一激活函数901(例如tanh激活函数)，生成第一特征数据；合并特征数据经过第二卷积层和第二激活函数902(例如sigmoid激活函数)，生成第一权重数据。第一特征数据和第一权重数据经过逐元素相乘903，生成第二特征数据。合并特征数据经过第三卷积层和第三激活函数904(例如sigmoid激活函数)，生成第二权重数据；音频特征数据再与第二权重数据经过逐元素相乘905，生成第三特征数据。第三特征数据和第二特征数据经过elemwise_add方法906融合生成第一融合特征数据。

合并特征数据经过第四卷积层和第四激活函数907(例如tanh激活函数)，生成第四特征数据；合并特征数据经过第五卷积层和第五激活函数908(例如sigmoid激活函数)，生成第三权重数据。第四特征数据和第三权重数据经过逐元素相乘909，生成第五特征数据。合并特征数据经过第六卷积层和第六激活函数910(例如sigmoid激活函数)，生成第四权重数据；唇部状态特征数据再与第四权重数据经过逐元素相乘911，生成第六特征数据。第六特征数据和第五特征数据经过elemwise_add方法912融合生成第二融合特征数据。

第一融合特征数据和第二融合特征数据合并，生成融合特征数据。

图9所示的生成融合特征数据即为双门控特征融合方法，该方法将融合音频特征数据作为主特征数据，将唇部状态特征数据作为从特征数据，以及将唇部状态特征数据作为主特征数据，将融合音频特征数据作为从特征数据，按照相似的步骤和网络结构执行两次特征融合，得到第一融合特征数据和第二融合特征数据。执行过程中生成的权重数据作为门控参数与对应的特征数据进行运算，可以针对性更强地从音频特征数据和唇部状态特征数据中提取表示目标用户的语音的信息，从而达到更准确地提取目标用户的语音信号。

示例性装置

图10是本公开一示例性实施例提供的语音信号的提取装置的结构示意图。本实施例可应用在电子设备上，如图10所示，语音信号的提取装置包括：获取模块1001，用于获取在目标区域内采集的多通道混合音频信号和图像序列；第一确定模块1002，用于确定目标区域内的目标用户；第二确定模块1003，用于基于图像序列，确定目标用户的唇部区域图像序列；第三确定模块1004，用于基于唇部区域图像序列，确定唇部状态特征数据；第四确定模块1005，用于基于多通道混合音频信号，确定音频特征数据；第五确定模块1006，用于基于唇部区域图像序列，确定目标用户的唇部与麦克风阵列的空间位置特征数据；提取模块1007，用于基于唇部状态特征数据、音频特征数据和空间位置特征数据，从多通道混合音频信号中提取目标用户的语音信号。

在本实施例中，获取模块1001获取在目标区域内采集的多通道混合音频信号和图像序列。其中，目标区域可以是设置有如图1所示的麦克风阵列104和相机105的空间区域，目标区域的类型可以包括但不限于车辆内部、房间内部等。多通道混合音频信号可以是由麦克风阵列104采集的音频信号，该音频信号可以包括多个通道，每个通道即对应的一个麦克风采集的音频信号。多通道混合音频信号包括至少一个用户的语音信号和噪声信号等。图像序列可以是相机105对目标区域内的用户拍摄的图像。应当理解，本实施例中的多通道混合音频信号和图像序列是在相同时长(例如1秒)内同步采集的。

在本实施例中，第一确定模块1002可以确定目标区域内的目标用户。

可选的，相机可以对某个特定区域(例如车辆内的驾驶位、副驾驶位等)内的某个单独的用户拍摄，若第一确定模块1002从拍摄的图像序列中识别出该用户，则确定该用户为目标用户。

相机也可以对多个用户拍摄，从拍摄的图像序列中识别出多个用户，第一确定模块1002将其中一个用户确定为当前执行该方法所针对的目标用户。例如，可以从识别出的多个用户中，确定位于指定的图像中央区域的用户为目标用户；或者，可以将每个用户均确定为目标用户，对于每个目标用户，均执行一次该方法；或者，可以根据预设的用户特征数据(例如脸部特征数据)，从图像序列中识别出与该用户特征数据匹配的用户，将该用户确定为目标用户。

在本实施例中，第二确定模块1003可以基于图像序列，确定目标用户的唇部区域图像序列。

具体地，图像序列中的图像可以包括目标用户的唇部区域，第二确定模块1003可以基于唇部图像检测方法(例如基于人脸关键点检测方法确定唇部区域图像)，从图像序列中包括的图像中分别提取唇部区域图像，得到唇部区域图像序列。

在本实施例中，第三确定模块1004可以基于唇部区域图像序列，确定唇部状态特征数据。其中，唇部状态特征数据用于表征口型的变化特征。通常，第三确定模块1004可以识别唇部区域图像序列中的每个唇部区域图像的唇部外形特征数据(例如，包括嘴角之间的距离、上下嘴唇之间的距离等)，将各个唇部区域图像的唇部外形特征数据合并为唇部状态特征数据。基于唇部区域图像序列，确定唇部状态特征数据，可以采用诸如唇语识别等方法实现，这里不再赘述。

在本实施例中，第四确定模块1005可以基于多通道混合音频信号，确定音频特征数据。

可选的，第四确定模块1005可以基于神经网络的方法，确定一个通道的音频特征数据。例如，神经网络可以包括但不限于RNN、LSTM、UNet、Complex UNet等，以及基于自注意力机制及跨域注意力机制的Transformer架构。

在本实施例中，第五确定模块1006可以基于唇部区域图像序列，确定目标用户的唇部与如图1所示的麦克风阵列104的空间位置特征数据。

在本实施例中，提取模块1007可以基于唇部状态特征数据、音频特征数据和空间位置特征数据，从多通道混合音频信号中提取目标用户的语音信号。

参照图11，图11是本公开另一示例性实施例提供的语音信号的提取装置的结构示意图。

在一些可选的实现方式中，第五确定模块1006包括：第一确定单元10061，用于基于唇部区域图像序列和用于采集图像序列的相机的预设参数，确定表示目标用户的唇部的空间位置的唇部位置信息；第二确定单元10062，用于基于唇部位置信息和麦克风阵列的预设位置信息，确定目标用户的唇部位置所在的目标直线与麦克风阵列的基准线之间的角度；第三确定单元10063，用于基于角度，确定目标用户的唇部位置与麦克风阵列之间的角度特征数据；第四确定单元10064，用于基于角度特征数据，确定空间位置特征数据。

在一些可选的实现方式中，该装置还包括：第六确定模块1008，用于确定表示多通道混合音频信号之间的相位差特征数据；第三确定单元10063进一步用于：基于角度和相位差特征数据，确定角度特征数据。

在一些可选的实现方式中，第四确定单元10064进一步用于：基于角度特征数据和相位差特征数据，确定空间位置特征数据。

在一些可选的实现方式中，提取模块1007包括：融合单元10071，用于利用预先训练的神经网络模型的融合网络，对唇部状态特征数据、音频特征数据和空间位置特征数据进行融合，得到融合特征数据；解码单元10072，用于利用神经网络模型的解码网络，对融合特征数据进行解码，得到掩码数据；提取单元10073，用于基于掩码数据，从多通道混合音频信号中提取目标用户的语音信号。

在一些可选的实现方式中，提取单元10073包括：压缩子单元100731，用于利用预设的激活函数，对掩码数据进行压缩，得到压缩数据；提取子单元100732，用于基于压缩数据，从多通道混合音频信号中提取目标用户的语音信号。

在一些可选的实现方式中，融合单元10071包括：第一融合子单元100711，用于利用融合网络包括的第一融合子网络对音频特征数据和空间位置特征数据进行第一融合处理，得到融合音频特征数据；第二融合子单元100712，用于利用融合网络包括的第二融合子网络对融合音频特征数据和唇部状态特征数据进行第二融合处理，得到融合特征数据。

在一些可选的实现方式中，第四确定模块1005包括：转换单元10051，用于对多通道混合音频信号进行频域转换，得到频域数据；压缩单元10052，用于对频域数据进行压缩，得到压缩频域数据；编码单元10053，用于利用预先训练的神经网络模型的音频编码网络，对压缩频域数据进行编码，得到音频特征数据。

本公开上述实施例提供的语音信号的提取装置，通过获取在目标区域内采集的多通道混合音频信号和图像序列，然后基于唇部区域图像序列，确定唇部状态特征数据，基于唇部区域图像序列，确定唇部状态特征数据和目标用户的唇部与麦克风阵列的空间位置特征数据，以及基于多通道混合音频信号，确定音频特征数据，最后基于唇部状态特征数据、音频特征数据和空间位置特征数据，从多通道混合音频信号中提取目标用户的语音信号。本公开实施例实现了将多通道混合音频信号和空间位置特征数据结合进行多模态语音分离，有效利用了唇部的空间位置和多个麦克风的位置之间的位置关系作为语音分离的辅助信息，更有针对性地对目标用户的唇部位置进行跟踪，从而提高了语音信号提取的准确性。在出现唇部遮挡或唇部图像质量较差的场景下，可以有效利用唇部和麦克风阵列的位置关系，降低图像质量变差造成的影响，进而提高了语音信号提取的稳定性。

示例性电子设备

下面，参考图12来描述根据本公开实施例的电子设备。该电子设备可以是如图1所示的终端设备101和服务器103中的任一个或两者、或与它们独立的单机设备，该单机设备可以与终端设备101和服务器103进行通信，以从它们接收所采集到的输入信号。

图12示出了根据本公开实施例的电子设备的框图。

如图12所示，电子设备1200包括一个或多个处理器1201和存储器1202。

处理器1201可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备1200中的其他组件以执行期望的功能。

存储器1202可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器1201可以运行程序指令，以实现上文的本公开的各个实施例的语音信号的提取方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备1200还可以包括：输入装置1203和输出装置1204，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是终端设备101或服务器103时，该输入装置1203可以是麦克风、相机、鼠标、键盘等设备，用于输入多通道混合音频信号、图像序列、各种命令等。在该电子设备是单机设备时，该输入装置1203可以是通信网络连接器，用于从终端设备101和服务器103接收所输入的多通道混合音频信号、图像序列、各种命令等。

该输出装置1204可以向外部输出各种信息，包括目标用户的语音信号。该输出装置1204可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出装置等等。

当然，为了简化，图12中仅示出了该电子设备1200中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备1200还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的语音信号的提取方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的语音信号的提取方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种语音信号的提取方法，包括：

获取在目标区域内采集的多通道混合音频信号和图像序列；

确定所述目标区域内的目标用户；

基于所述图像序列，确定所述目标用户的唇部区域图像序列；

基于所述唇部区域图像序列，确定唇部状态特征数据；

基于所述多通道混合音频信号，确定音频特征数据；

基于所述唇部区域图像序列，确定所述目标用户的唇部与麦克风阵列的空间位置特征数据；

基于所述唇部状态特征数据、所述音频特征数据和所述空间位置特征数据，从所述多通道混合音频信号中提取所述目标用户的语音信号。

2.根据权利要求1所述的方法，其中，所述基于所述唇部区域图像序列，确定所述目标用户的唇部与麦克风阵列的空间位置特征数据，包括：

基于所述唇部区域图像序列和用于采集所述图像序列的相机的预设参数，确定表示所述目标用户的唇部的空间位置的唇部位置信息；

基于所述唇部位置信息和所述麦克风阵列的预设位置信息，确定所述目标用户的唇部位置所在的目标直线与所述麦克风阵列的基准线之间的角度；

基于所述角度，确定所述目标用户的唇部位置与所述麦克风阵列之间的角度特征数据；

基于所述角度特征数据，确定所述空间位置特征数据。

3.根据权利要求2所述的方法，其中，还包括：

确定表示所述多通道混合音频信号之间的相位差特征数据；

所述基于所述角度，确定所述目标用户的唇部位置与所述麦克风阵列之间的角度特征数据，包括：

基于所述角度和所述相位差特征数据，确定所述角度特征数据。

4.根据权利要求3所述的方法，其中，所述基于所述角度特征数据，确定所述空间位置特征数据，包括：

基于所述角度特征数据和所述相位差特征数据，确定所述空间位置特征数据。

5.根据权利要求1所述的方法，其中，所述基于所述唇部状态特征数据、所述音频特征数据和所述空间位置特征数据，从所述多通道混合音频信号中提取所述目标用户的语音信号，包括：

利用预先训练的神经网络模型的融合网络，对所述唇部状态特征数据、所述音频特征数据和所述空间位置特征数据进行融合，得到融合特征数据；

利用所述神经网络模型的解码网络，对所述融合特征数据进行解码，得到掩码数据；

基于所述掩码数据，从所述多通道混合音频信号中提取所述目标用户的语音信号。

6.根据权利要求5所述的方法，其中，所述基于所述掩码数据，从所述多通道混合音频信号中提取所述目标用户的语音信号，包括：

利用预设的激活函数，对所述掩码数据进行压缩，得到压缩数据；

基于所述压缩数据，从所述多通道混合音频信号中提取所述目标用户的语音信号。

7.根据权利要求5所述的方法，其中，所述利用预先训练的神经网络模型的融合网络，对所述唇部状态特征数据、所述音频特征数据和所述空间位置特征数据进行融合，得到融合特征数据，包括：

利用所述融合网络包括的第一融合子网络对所述音频特征数据和所述空间位置特征数据进行第一融合处理，得到融合音频特征数据；

利用所述融合网络包括的第二融合子网络对所述融合音频特征数据和所述唇部状态特征数据进行第二融合处理，得到所述融合特征数据。

8.根据权利要求1所述的方法，其中，所述基于所述多通道混合音频信号，确定音频特征数据，包括：

对所述多通道混合音频信号进行频域转换，得到频域数据；

对所述频域数据进行压缩，得到压缩频域数据；

利用预先训练的神经网络模型的音频编码网络，对所述压缩频域数据进行编码，得到所述音频特征数据。

9.一种语音信号的提取装置，包括：

获取模块，用于获取在目标区域内采集的多通道混合音频信号和图像序列；

第一确定模块，用于确定所述目标区域内的目标用户；

第二确定模块，用于基于所述图像序列，确定所述目标用户的唇部区域图像序列；

第三确定模块，用于基于所述唇部区域图像序列，确定唇部状态特征数据；

第四确定模块，用于基于所述多通道混合音频信号，确定音频特征数据；

第五确定模块，用于基于所述唇部区域图像序列，确定所述目标用户的唇部与麦克风阵列的空间位置特征数据；

提取模块，用于基于所述唇部状态特征数据、所述音频特征数据和所述空间位置特征数据，从所述多通道混合音频信号中提取所述目标用户的语音信号。

10.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于被处理器执行以实现上述权利要求1-8任一所述的方法。

11.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器的可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-8任一所述的方法。