CN114038452A

CN114038452A - 一种语音分离方法和设备

Info

Publication number: CN114038452A
Application number: CN202111362514.8A
Authority: CN
Inventors: 陈扬坤; 付加飞; 邱志浩
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2021-11-17
Filing date: 2021-11-17
Publication date: 2022-02-11

Abstract

本申请公开了一种语音分离方法和设备，涉及计算机软件技术领域，用于提高声源定位的准确度，提升语音分离准确性。该方法包括：获取图像采集设备在预设时间段内采集的目标场景的待处理图像，以及声音采集设备在预设时间段内采集的目标场景的混合声音信号；待处理图像包括第一声源的图像，混合声音信号由第一声源的声音信号和其他声音信号混合而成；基于第一声源的图像在待处理图像中的位置信息，以及图像采集设备相对于声音采集设备的方位信息，确定第一声源相对于声音采集设备的第一方位；增强混合声音信号中的第一方位的声音信号，并抑制除第一方位之外的其他方位的声音信号，得到第一声源的声音信号。

Description

一种语音分离方法和设备

技术领域

本申请涉及计算机软件技术领域，尤其涉及一种语音分离方法和设备。

背景技术

当前，语音分离技术应用在生活的各种场景，例如，通话过程中从背景声音中分离出说话人的声音信号，又如，在多人会议中分离出每个人的声音信号方便留存等等。其中，语音分离可以基于单个麦克风阵列或多个分布式麦克风阵列实现声源定位，进而输出一个或多个声源发出的语音，达到语音分离的目的。而在麦克风阵列采集声音的过程中，存在多个声源同时发声时，对于多个声源的定位造成很大的干扰，导致声源定位的准确度低，严重影响语音分离的准确性。

发明内容

本申请实施例提供了一种语音分离方法和设备，用于提高声源定位的准确度，提升语音分离准确性。

为达到上述目的，本申请实施例提供如下技术方案：

第一方面，提供了一种语音分离方法，包括：获取图像采集设备在预设时间段内采集的目标场景的任意一张待处理图像，以及声音采集设备在预设时间段内采集的目标场景的混合声音信号；待处理图像包括第一声源的图像，混合声音信号由第一声源的声音信号和其他声音信号混合而成；基于第一声源的图像在待处理图像中的位置信息，以及图像采集设备相对于声音采集设备的方位信息，确定第一声源相对于声音采集设备的第一方位；增强混合声音信号中的第一方位的声音信号，并抑制除第一方位之外的其他方位的声音信号，得到第一声源的声音信号。

由于当前语音分离所面对的场景中的声音信号较为复杂可能包含一个或多个声源，需要实现语音分离的第一声源在确定方位时通常会受到其他声音信号的干扰，导致声源定位不准确，从而影响语音分离的准确性。因此，使用本技术方案，基于图像确定声源，有助于提升声源定位的准确度，基于图像进行声源定位后的语音分离的准确性也相应得到大幅度的提升。

在一种可能的实现方式中，待处理图像还包括第二声源的图像，其他声音信号包括第二声源的声音信号；该方法还包括：基于第二声源的图像在待处理图像中的位置信息，以及图像采集设备相对于声音采集设备的方位信息，确定第二声源相对于声音采集设备的第二方位；增强混合声音信号中的第二方位的声音信号，并抑制除第二方位之外的其他方位的声音信号，得到第二声源的声音信号。

该种可能的实现方式，提供了在多个声源的场景下实现语音分离的具体实现方式，计算机设备可以采用上述方式实现不同声源的定位，由于该方式中，声源定位互不干扰，因此，基于该方式的语音分离准确性更高。

在一种可能的实现方式中，基于第一声源的图像在待处理图像中的位置信息，以及图像采集设备相对于声音采集设备的方位信息，确定第一声源相对于声音采集设备的第一方位，包括：基于第一声源的图像在待处理图像中的位置信息，确定第一声源相对于图像采集设备的方位信息；基于第一声源相对于图像采集设备的方位信息，以及图像采集设备相对于声音采集设备的方位信息，确定第一声源相对于声音采集设备的第一方位。

该种可能的实现方式，提供了计算机设备基于图像实现声源定位的具体实现方式，计算机设备通过确定声源与图像采集设备之间的方位信息以及图像采集设备与声音采集设备之间的方位信息确定声源与声音采集设备之间的方位信息，从而能够准确地定位声源，帮助语音分离的实现。

在一种可能的实现方式中，第一声源是人员，该方法还包括：通过头肩检测算法，确定第一声源的图像在待处理图像中的位置信息。

该种可能的实现方式，提供了计算机设备基于图像确定声源的可能的识别方法，通过头肩检测既可以较快地确定图像中的声源，也简化了图像识别的步骤，实现简单方便。

在一种可能的实现方式中，增强混合声音信号中的第一方位的声音信号，包括：基于波束形成方法，增强混合声音信号中的第一方位的声音信号。

该种可能的实现方式，提供了计算机设备实现语音分离的具体实现方式，通过波束形成方法，基于声源定位后的方位输出该声源的声音信号。

在一种可能的实现方式中，图像采集设备与声音采集设备集成在一起。

该种可能的实现方式，有助于具体实现过程中的设备装配，同时减小计算机设备进行坐标转换的计算量，达到方便管理的效果。

第二方面，提供了一种计算机设备，包括：用于执行第一方面提供的任意一种方法的功能单元，各个功能单元所执行的动作通过硬件实现或通过硬件执行相应的软件实现。例如，计算机设备可以包括：获取单元、确定单元和处理单元；获取单元，用于获取图像采集设备在预设时间段内采集的目标场景的任意一张待处理图像，以及声音采集设备在预设时间段内采集的目标场景的混合声音信号；待处理图像包括第一声源的图像，混合声音信号由第一声源的声音信号和其他声音信号混合而成；确定单元，用于基于第一声源的图像在待处理图像中的位置信息，以及图像采集设备相对于声音采集设备的方位信息，确定第一声源相对于声音采集设备的第一方位；处理单元，用于增强混合声音信号中的第一方位的声音信号，并抑制除第一方位之外的其他方位的声音信号，得到第一声源的声音信号。

第三方面，提供了一种计算机设备，包括：处理器和存储器。处理器与存储器连接，存储器用于存储计算机执行指令，处理器执行存储器存储的计算机执行指令，从而实现第一方面提供的任意一种方法。

第四方面，提供了一种芯片，该芯片包括：处理器和接口电路；接口电路，用于接收代码指令并传输至处理器；处理器，用于运行代码指令以执行第一方面提供的任意一种方法。

第五方面，提供了一种计算机可读存储介质，包括计算机执行指令，当计算机执行指令在计算机上运行时，使得计算机执行第一方面提供的任意一种方法。

第六方面，提供了一种计算机程序产品，包括计算机执行指令，当计算机执行指令在计算机上运行时，使得计算机执行第一方面提供的任意一种方法。

第二方面至第六方面中的任一种实现方式所带来的技术效果可参见第一方面中对应实现方式所带来的技术效果，此处不再赘述。

附图说明

图1为本申请实施例提供的一种语音分离系统的组成示意图；

图2为本申请实施例提供的一种图像、声音采集设备的结构示意图；

图3为本申请实施例提供的一种应用场景示意图；

图4为本申请实施例提供的一种计算机设备的结构示意图；

图5为本申请实施例提供的一种语音分离方法的流程示意图；

图6为本申请实施例提供的一种声源定位的示意图；

图7为本申请实施例提供的一种计算方位信息的坐标示意图；

图8为本申请实施例提供的一种计算机设备的组成示意图。

具体实施方式

在本申请的描述中，除非另有说明，“/”表示“或”的意思，例如，A/B可以表示A或B。本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。此外，“至少一个”是指一个或多个，“多个”是指两个或两个以上。“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

需要说明的是，本申请中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

如图1所示，本申请实施例提供了一种语音分离系统10，其中可以包括计算机设备11、声音采集设备12和图像采集设备13。

本申请实施例中的计算机设备11可以为终端装置，也可以为网络设备。其中，终端装置可以被称为：终端、用户设备(user equipment，UE)、终端设备、接入终端、用户单元、用户站、移动站、远方站、远程终端、移动设备、用户终端、无线通信设备、用户代理或用户装置等。终端装置具体可以是手机、增强现实(augmented reality，AR)设备、虚拟现实(virtualreality，VR)设备、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等。网络设备具体可以是服务器等。其中，服务器可以是一个物理或逻辑服务器，也可以是有两个或两个以上分担不同职责的物理或逻辑服务器、相互协同来实现服务器的各项功能。

本申请实施例中的声音采集设备12可以为麦克风阵列，麦克风阵列是指由多个用于采集声音的麦克风构成的系统。其中，麦克风的个数可以为8、16、32等，不同的个数构成的麦克风阵列的拓扑结构不同。其中，每个麦克风用于将采集的声音信号转换为电信号。作为构成阵列的每个麦克风阵元，采集的声音信号可以用于音频处理，如噪声处理、语音分离等等。

本申请实施例中的图像采集设备13可以为摄像头，用于捕获静态图像或视频。该语音分离系统中可以包括1个或N个摄像头，N为大于1的正整数。

需要说明的是，本申请实施例对计算机设备、声音采集设备和图像采集设备的具体形式不作任何限制，以下统一以计算机设备、麦克风阵列和摄像头为例进行说明。

本申请的语音分离系统中的各个设备可以以不同的方式进行部署。具体部署方式以摄像头能够拍摄到第一声源为准来设置，不限定具体位置。一种可能的实现方式，摄像头与麦克风阵列独立设置。在该种部署方式下，可以基于现有的场景进行设备的补充和调整，即便于实现，减小设备配置的复杂度。

另一种可能的实现方式，摄像头与麦克风阵列集成在一起，如图2所示，摄像头M部署在32路麦克风阵列的中心。在该种部署方式下，由于采集声音信号和图像的设备集成在一起，所占用的空间较小，并且在后续声源定位时，便于坐标的转换。

需要说明的是，本申请中，当摄像头与麦克风阵列集成在一起时，摄像头与麦克风阵列的位置关系不进行限制，即摄像头不一定部署在麦克风阵列的中心，也可以部署在麦克风阵列的其他方位。

本申请实施例提供的方法可应用于如图3所示的场景，该场景为多人会议的场景，其中，采集设备是基于图2中摄像头与麦克风阵列集成在一起的结构形成的设备，A与B为多人会议中的其中两个声源。通常在多人会议中，会存在多个声源同时或交替发声的情况，通过图3所示的采集设备，能够获取多个声源的混合声音信号和图像，该混合声音信号和图像可以应用于本申请中的语音分离方法。

如图4所示，为本申请实施例提供的一种计算机设备40的硬件结构示意图。计算机设备40可以用于实现上述计算机设备的功能。

图4所示的计算机设备40可以包括：处理器401、存储器402、通信接口403以及总线404。处理器401、存储器402以及通信接口403之间可以通过总线404连接。

处理器401是计算机设备40的控制中心，可以是一个通用中央处理单元(centralprocessing unit，CPU)，也可以是其他通用处理器等。其中，通用处理器可以是微处理器或者是任何常规的处理器等。

作为示例，处理器401可以包括一个或多个CPU，例如图4中所示的CPU 0和CPU 1。

存储器402可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory，EEPROM)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

一种可能的实现方式中，存储器402可以独立于处理器401存在。存储器402可以通过总线404与处理器401相连接，用于存储数据、指令或者程序代码。处理器401调用并执行存储器402中存储的指令或程序代码时，能够实现本申请实施例提供的语音分离方法。

另一种可能的实现方式中，存储器402也可以和处理器401集成在一起。

通信接口403，用于计算机设备40与其他设备通过通信网络连接，该通信网络可以是以太网，无线接入网(radio access network，RAN)，无线局域网(wireless local areanetworks，WLAN)等。通信接口403可以包括用于接收数据的接收单元，以及用于发送数据的发送单元。

总线404，可以是工业标准体系结构(industry standard architecture，ISA)总线、外部设备互连(peripheral component interconnect，PCI)总线或扩展工业标准体系结构(extended industry standard architecture，EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

需要指出的是，图4中示出的结构并不构成对计算机设备40的限定，除图4所示部件之外，计算机设备40可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

为了使得本申请实施例更加清楚，以下对与本申请实施例相关的概念和部分内容作简单介绍。

1、语音分离

语音分离是指从背景声音中将所需的目标声音分离出来，也可以理解为去除背景声音中对目标声音信号造成干扰的声音信号。

2、波束形成

波束形成，是指通过合适的算法对声音信号处理，形成指向声源的波束。具体可以包括对麦克风阵列中各个阵元所采集的声音信号进行时延或相位补偿、幅度加权处理等等。其中，波束形成分为自适应波束形成算法和非自适应波束形成算法，自适应波束形成算法中包括最小方差无失真响应(minimum variance distortionless response，MVDR)自适应波束形成算法、时域广义旁瓣抵消器(generalized side-lobe canceller，GSC)自适应波束形成算法等等。

3、声源定位

声源定位，是指确定声源所处的空间位置，通常基于声源发出的声音信号进行判定。

4、语音识别

语音识别，是指计算机设备通过识别声音信号，并将声音信号转换为人类自然语言用于显示，或者，将声音信号转换为计算机能够识别的机器语言，执行该声音信号中携带的指示。

如图5所示，为本申请提供的一种语音分离方法的流程图。该方法包括：

S501、计算机设备获取摄像头在预设时间段内采集的目标场景的任意一张待处理图像，以及麦克风阵列在该预设时间段内采集的目标场景的混合声音信号。其中，待处理图像包括第一声源的图像，混合声音信号由第一声源的声音信号和其他声音信号混合而成。

目标场景是摄像头和麦克风阵列所在的场景。可选的，目标场景可以是一个封闭的空间(如一个房间)，摄像头和麦克风阵列均安装在这个封闭的空间中。当然目标场景也可以不是封闭的空间，例如目标空间是空旷的场地。

目标场景中包括第一声源，第一声源可以是目标场景中的任意一个声源。声源可以是人，也可以是其他对象，本申请实施例对此不进行限定。在本申请的具体实施例中，均以声源是人为例进行说明。

麦克风阵列采集到的混合声音信号由第一声源的声音信号(即第一声源发出的声音信号)和其他声音信号混合而成。

可选的，其他声音信号包括环境音(或噪音)和/或至少一个第二声源的声音信号。

例如，在单人语音分离的应用场景下，麦克风阵列所采集到的混合声音信号可以由一个人员的声音信号和环境音混合而成。

又如，在多人语音分离的应用场景(如多人对话的应用场景)下，麦克风阵列所采集到的混合声音信号可以多个人员的声音信号混合而成，或者，麦克风阵列所采集到的混合声音信号可以多个人员的声音信号和环境音混合而成。

摄像头所采集到的图像，即为目标场景的图像。待处理图像可以是预设时间段内摄像头采集到的任意一张图像。

可选的，在预设时间段内摄像头采集到的图像中第一声源的位置不发生变化，或发生变化的幅度在允许的范围内。这样，参考在预设时间段内摄像头采集到的目标场景的任意一个图像(即待处理图像)，分离该预设时间段内麦克风阵列采集到的目标场景的混合声音信号中第一声源的声音信号，有助于使得分离的效果更好。

也就是说，在一个示例中，本申请实施例提供的技术方案可以适用于声源的位置在一段时间内不发生变化或者发生变化的幅度较小(可以忽略不计)的场景中。

S502、计算机设备确定第一声源图像在待处理图像中的位置信息。

本申请实施例对S502的具体实现方式不进行限定。例如，当第一声源是人员时，计算机设备可以基于头肩检测算法确定第一声源的图像在待处理图像中的位置信息。

示例性的，如图6所示，图像1中包括人员A、人员B，人员A和人员B的图像可以通过头肩检测算法从图像1中识别得到。其中，头肩检测算法是指通过深度学习技术能够识别图像、视频中人体的头肩区域。该头肩区域可以为一种几何图形，如图6所示的矩形虚线框，将人员A和人员B的头部和肩部分别包含在内。

可选的，计算机设备根据识别得到的头肩区域预测人体发声部位，即声源的具体位置。示例性的，如图6所示的辅助线，人的嘴部大约在头肩区域中心靠下的三分之一处，将该位置的坐标作为人员A和人员B图像在图像1中的位置信息。

需要说明的是，在头肩区域中确定声源的具体位置的方式不作限定，如头肩检测算法精度更高，可以采用更精确的方式计算声源的具体位置。

S503、计算机设备基于第一声源图像在待处理图像中的位置信息，以及摄像头相对于麦克风阵列的方位信息，确定第一声源相对于麦克风阵列的第一方位。

可选的，S503可以包括：

S503A：计算机设备基于第一声源的图像在待处理图像中的位置信息，确定第一声源相对于摄像头的方位信息。

可以理解的是，当摄像头的位置一定的情况下，摄像头视野范围内的对象的图像在摄像头所拍摄的图像中的位置信息，能够表征该对象相对于摄像头的位置信息。该位置信息可以包括距离信息和方位信息。

例如，仍以上述图6的示例为例，如图7所示，以图像1的宽作为横轴u，以图像1的高作为纵轴v，Oc为原点构成像素坐标系。其中，w和h分别为图像1的宽和高，O为图像的像素中心，O在像素坐标系的像素坐标为

以O为原点，建立平行于u的横轴x，平行于v的纵轴y，构成的平面坐标系。假设人员A在图7中以p来表示，其像素坐标为(u_p，v_p)，该像素坐标即为人员A的图像在图像1中的位置信息，那么p与O的夹角θ(即方位角)可以用于表示人员A相对于摄像头的方位信息，通过二者的像素坐标可以得到方位角θ，计算公式如下：

其中，l_pp'为pp’的长度，l_Op'为Op’之间的长度，

需要说明的是，上述计算方位角θ的公式可以基于三角函数进行变换，本申请对此不作限制。

S503B：计算机设备基于第一声源相对于摄像头的方位信息，以及摄像头相对于麦克风阵列的方位信息，确定第一声源相对于所麦克风阵列的第一方位。

基于上述图2所示的部署方式，当摄像头处于麦克风阵列的中心时，可以理解为第一声源相对于摄像头的位置信息与第一声源相对于麦克风阵列的位置信息相同，因此，第一声源相对于麦克风阵列的第一方位信息即为上述示例中的方位角θ。

需要说明的是，当摄像头与麦克风阵列集成在一起时，可以忽略设备之间的位置关系，即近似认为摄像头相对于麦克风阵列的用于表示方位信息的方位角为零。因此，第一声源相对于摄像头的位置信息与第一声源相对于麦克风阵列的位置信息相同。基于该种部署方式，计算机设备在确定第一方位信息时计算量较小，声源定位速度较快。

当摄像头与麦克风阵列独立部署时，计算机设备在确定第一声源与摄像头的位置关系的基础上，还需要确定麦克风阵列与摄像头的位置关系。基于第一声源与摄像头之间的位置关系，以及摄像头与麦克风阵列之间的位置关系，得到第一声源相对于麦克风阵列的第一方位信息。

具体地，摄像头相对于麦克风阵列的方位信息在安装这两个器件之后，即固定不变，因此，可以在执行本实施例提供的技术方案之前，将摄像头相对于麦克风阵列的方位信息预设在计算机设备中。

当计算机设备获知第一声源相对于摄像头的方位信息和摄像头相对于麦克风阵列的方位信息后，可以通过转换得到第一声源相对于麦克风阵列的方位信息，该方位信息即为第一方位信息。

S504、计算机设备增强混合声音信号中的第一方位的声音信号，并抑制除第一方位之外的其他方位的声音信号，得到第一声源的声音信号。

将步骤S504中获取的方位角应用在波束形成技术中；

增强该波束可以通过波束形成中MVDR算法或GSC算法实现，属于本领域技术人员熟知的技术，此处不再赘述。

通过上述步骤，计算机设备能够实现分离从混合声音信号中通过图像进行独立声源的定位，实现语音分离，有助于提升语音分离的准确性。

可选的，在上述步骤S504之后，计算机设备还可以执行以下步骤S505-S506。

S505、计算机设备基于第二声源的图像在待处理图像中的位置信息，以及摄像头相对于麦克风阵列的方位信息，确定第二声源相对于麦克风阵列的第二方位。

S506、计算机设备增强混合声音信号中的第二方位的声音信号，并抑制除第二方位之外的其他方位的声音信号，得到第二声源的声音信号。

可以理解的是，在步骤S506之后，计算机设备分别得到第一声源的声音信号和第二声源的声音信号，其中，除第二方位之外的其他方位的声音信号应当包括上述步骤S504中的第一声源的声音信号。上述步骤S504中除第一方位之外的其他方位的声音信号应当包括第二声源的声音信号。

示例性的，如图6所示，假设人员A为第一声源，人员B为第二声源，计算机设备基于上述步骤S501-S504确定人员A的声音信号之后，还可以计算机设备确定人员B的声音信号。

通过上述方式确定多个声源的声音信号，能够在多个声源的场景中实现语音分离，由于采用图像确定声源与麦克风阵列的方位信息，因此能够避免多个声源的混合声音信号对声源定位的干扰，从而提升语音分离的准确性。

可选的，在执行步骤S501-S506之后，还可以将语音分离后的声音信号进行语音识别，实现自动记录语音信号中的信息。例如，通过语音识别将声音信号转换为文字自动保存，从而实现从采集声音到自动保存声源记录的功能，有助于提升计算机设备的智能性。

上述主要从方法的角度对本申请实施例的方案进行了介绍。可以理解的是，计算机设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和软件模块中的至少一个。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对计算机设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

示例性的，图8示出了上述实施例中所涉及的计算机设备(记为计算机设备80)的一种可能的结构示意图，该计算机设备80包括获取单元801、确定单元802和处理单元803。获取单元801，用于获取图像采集设备在预设时间段内采集的目标场景的任意一张待处理图像，以及声音采集设备在预设时间段内采集的目标场景的混合声音信号；待处理图像包括第一声源的图像，混合声音信号由第一声源的声音信号和其他声音信号混合而成。例如，图5所示的步骤S501。确定单元802，用于基于第一声源的图像在待处理图像中的位置信息，以及图像采集设备相对于声音采集设备的方位信息，确定第一声源相对于声音采集设备的第一方位。例如，图5所示的步骤S502、S503。处理单元803，用于增强混合声音信号中的第一方位的声音信号，并抑制除第一方位之外的其他方位的声音信号，得到第一声源的声音信号。例如，图5所示的步骤S504。

可选的，待处理图像还包括第二声源的图像，其他声音信号包括第二声源的声音信号；确定单元802，还用于基于第二声源的图像在待处理图像中的位置信息，以及图像采集设备相对于声音采集设备的方位信息，确定第二声源相对于声音采集设备的第二方位；处理单元803，还用于增强混合声音信号中的第二方位的声音信号，并抑制除第二方位之外的其他方位的声音信号，得到第二声源的声音信号。

可选的，确定单元802，具体用于基于第一声源的图像在待处理图像中的位置信息，确定第一声源相对于图像采集设备的方位信息；基于第一声源相对于图像采集设备的方位信息，以及图像采集设备相对于声音采集设备的方位信息，确定第一声源相对于声音采集设备的第一方位。

可选的，第一声源是人员，确定单元802，还用于通过头肩检测算法，确定第一声源的图像在待处理图像中的位置信息。

可选的，处理单元803，具体用于基于波束形成方法，增强混合声音信号中的第一方位的声音信号。

可选的，图像采集设备与声音采集设备集成在一起。可选的，计算机设备80中还包括存储单元804。存储单元804用于存储计算机执行指令，计算机设备中的其他单元可以根据存储单元804中存储的计算机执行指令执行相应的动作。

关于上述可选方式的具体描述可以参见前述的方法实施例，此处不再赘述。此外，上述提供的任一种计算机设备80的解释以及有益效果的描述均可参考上述对应的方法实施例，不再赘述。

作为示例，结合图4，计算机设备80中的获取单元801、确定单元802、处理单元803和存储单元804中的部分或全部实现的功能可以通过图4中的处理器401执行图4中的存储器402中的程序代码实现。获取单元801还可以通过图4中的通信接口403中的接收单元实现。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当该计算机程序在计算机上运行时，使得该计算机执行上文提供的任一种计算机设备所执行的方法。

关于上述提供的任一种计算机可读存储介质中相关内容的解释及有益效果的描述，均可以参考上述对应的实施例，此处不再赘述。

本申请实施例还提供了一种芯片。该芯片中集成了用于实现上述计算机设备80的功能的控制电路和一个或者多个端口。可选的，该芯片支持的功能可以参考上文，此处不再赘述。本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可通过程序来指令相关的硬件完成。所述的程序可以存储于一种计算机可读存储介质中。上述提到的存储介质可以是只读存储器，随机接入存储器等。上述处理单元或处理器可以是中央处理器，通用处理器、特定集成电路(application specific integrated circuit，ASIC)、微处理器(digital signal processor，DSP)，现场可编程门阵列(field programmable gatearray，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。

本申请实施例还提供了一种包含指令的计算机程序产品，当该指令在计算机上运行时，使得计算机执行上述实施例中的任意一种方法。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)，光介质(例如，DVD)、或者半导体介质(例如SSD)等。

应注意，本申请实施例提供的上述用于存储计算机指令或者计算机程序的器件，例如但不限于，上述存储器、计算机可读存储介质和通信芯片等，均具有非易失性(non-transitory)。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时，可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)，光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

尽管在此结合各实施例对本申请进行了描述，然而，在实施所要求保护的本申请过程中，本领域技术人员通过查看附图、公开内容、以及所附权利要求书，可理解并实现公开实施例的其他变化。在权利要求中，“包括”(comprising)一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施，但这并不表示这些措施不能组合起来产生良好的效果。

尽管结合具体特征及其实施例对本申请进行了描述，显而易见的，在不脱离本申请的精神和范围的情况下，可对其进行各种修改和组合。相应地，本说明书和附图仅仅是所附权利要求所界定的本申请的示例性说明，且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种语音分离方法，其特征在于，包括：

获取图像采集设备在预设时间段内采集的目标场景的任意一张待处理图像，以及声音采集设备在所述预设时间段内采集的所述目标场景的混合声音信号；所述待处理图像包括第一声源的图像，所述混合声音信号由所述第一声源的声音信号和其他声音信号混合而成；

基于所述第一声源的图像在所述待处理图像中的位置信息，以及所述图像采集设备相对于所述声音采集设备的方位信息，确定所述第一声源相对于所述声音采集设备的第一方位；

增强所述混合声音信号中的所述第一方位的声音信号，并抑制除所述第一方位之外的其他方位的声音信号，得到所述第一声源的声音信号。

2.根据权利要求1所述的方法，其特征在于，所述待处理图像还包括第二声源的图像，所述其他声音信号包括所述第二声源的声音信号；所述方法还包括：

基于所述第二声源的图像在所述待处理图像中的位置信息，以及所述图像采集设备相对于所述声音采集设备的方位信息，确定所述第二声源相对于所述声音采集设备的第二方位；

增强所述混合声音信号中的所述第二方位的声音信号，并抑制除所述第二方位之外的其他方位的声音信号，得到所述第二声源的声音信号。

3.根据权利要求1或2所述的方法，其特征在于，基于所述第一声源的图像在所述待处理图像中的位置信息，以及所述图像采集设备相对于所述声音采集设备的方位信息，确定所述第一声源相对于所述声音采集设备的第一方位，包括：

基于所述第一声源的图像在所述待处理图像中的位置信息，确定所述第一声源相对于所述图像采集设备的方位信息；

基于所述第一声源相对于所述图像采集设备的方位信息，以及所述图像采集设备相对于所述声音采集设备的方位信息，确定所述第一声源相对于所述声音采集设备的所述第一方位。

4.根据权利要求1所述的方法，其特征在于，所述第一声源是人员，所述方法还包括：

通过头肩检测算法，确定所述第一声源的图像在所述待处理图像中的位置信息。

5.根据权利要求1或2所述的方法，其特征在于，所述增强所述混合声音信号中的所述第一方位的声音信号，包括：

基于波束形成方法，增强所述混合声音信号中的所述第一方位的声音信号。

6.根据权利要求1或2所述的方法，其特征在于，所述图像采集设备与所述声音采集设备集成在一起。

7.一种计算机设备，其特征在于，包括：

获取单元，用于获取图像采集设备在预设时间段内采集的目标场景的任意一张待处理图像，以及声音采集设备在所述预设时间段内采集的所述目标场景的混合声音信号；所述待处理图像包括第一声源的图像，所述混合声音信号由所述第一声源的声音信号和其他声音信号混合而成；

确定单元，用于基于所述第一声源的图像在所述待处理图像中的位置信息，以及所述图像采集设备相对于所述声音采集设备的方位信息，确定所述第一声源相对于所述声音采集设备的第一方位；

处理单元，用于增强所述混合声音信号中的所述第一方位的声音信号，并抑制除所述第一方位之外的其他方位的声音信号，得到所述第一声源的声音信号。

8.根据权利要求7所述的计算机设备，其特征在于，所述待处理图像还包括第二声源的图像，所述其他声音信号包括所述第二声源的声音信号；

所述确定单元，还用于基于所述第二声源的图像在所述待处理图像中的位置信息，以及所述图像采集设备相对于所述声音采集设备的方位信息，确定所述第二声源相对于所述声音采集设备的第二方位；

所述处理单元，还用于增强所述混合声音信号中的所述第二方位的声音信号，并抑制除所述第二方位之外的其他方位的声音信号，得到所述第二声源的声音信号。

9.根据权利要求7或8所述的计算机设备，其特征在于，

所述确定单元，具体用于基于所述第一声源的图像在所述待处理图像中的位置信息，确定所述第一声源相对于所述图像采集设备的方位信息；

10.根据权利要求7所述的计算机设备，其特征在于，所述第一声源是人员，

所述确定单元，还用于通过头肩检测算法，确定所述第一声源的图像在所述待处理图像中的位置信息。

11.根据权利要求7或8所述的计算机设备，其特征在于，

所述处理单元，具体用于基于波束形成方法，增强所述混合声音信号中的所述第一方位的声音信号。

12.根据权利要求7或8所述的计算机设备，其特征在于，所述图像采集设备与所述声音采集设备集成在一起。

13.一种计算机设备，其特征在于，包括：处理器；

所述处理器与存储器连接，所述存储器用于存储计算机执行指令，所述处理器执行所述存储器存储的所述计算机执行指令，以使所述计算机设备实现如权利要求1-6任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，用于存储计算机指令，当所述计算机指令在计算机上运行时，使得所述计算机执行权利要求1-6中任一项所述的方法。