CN115410590A

CN115410590A - 一种语音增强方法和系统

Info

Publication number: CN115410590A
Application number: CN202110587365.9A
Authority: CN
Inventors: 肖乐; 张承乾; 廖风云; 齐心
Original assignee: Shenzhen Voxtech Co Ltd
Current assignee: Shenzhen Voxtech Co Ltd
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2022-11-29

Abstract

本说明书实施例公开了一种语音增强方法。所述方法包括：获取目标语音的第一信号和第二信号，所述第一信号为基于第一位置采集的所述目标语音的信号，所述第二信号为基于第二位置采集的所述目标语音的信号；基于目标语音位置、所述第一位置和所述第二位置，处理所述第一信号和所述第二信号以确定第一系数；基于所述第一信号和所述第二信号，确定与多个声源方向有关的多个参数，每个参数对应从一个声源方向发出声音以形成所述第一信号和所述第二信号的概率；基于所述多个参数和所述目标语音位置，确定第二系数；以及基于所述第一系数和所述第二系数，处理所述第一信号和/或第二信号以获取所述目标语音对应的语音增强后的第一输出语音信号。

Description

一种语音增强方法和系统

技术领域

本说明书涉及计算机技术领域，特别涉及语音增强的处理方法和系统。

背景技术

随着语音处理技术的发展，在通讯、语音采集等技术领域，对语音信号的质量要求越来越高。在进行语音通话和语音信号采集等场景中，会存在环境噪声、他人语音等各种噪声信号干扰，导致采集的目标语音不是干净的语音信号，影响了语音信号的质量，导致听不清语音、通话质量不高等问题。

因此，亟需提供一种语音增强方法和系统。

发明内容

本说明书实施例之一提供一种语音增强方法。所述方法可以包括获取目标语音的第一信号和第二信号，所述第一信号为基于第一位置采集的所述目标语音的信号，所述第二信号为基于第二位置采集的所述目标语音的信号。所述方法还可以包括基于目标语音位置、所述第一位置和所述第二位置，处理所述第一信号和所述第二信号以确定第一系数；基于所述第一信号和所述第二信号，确定与多个声源方向有关的多个参数，每个参数对应从一个声源方向发出声音以形成所述第一信号和所述第二信号的概率。所述方法还可以包括基于所述多个参数和所述目标语音位置，确定第二系数；以及基于所述第一系数和所述第二系数，处理所述第一信号和/或第二信号以获取所述目标语音对应的语音增强后的第一输出语音信号。

在一些实施例中，所述基于目标语音位置、所述第一位置和所述第二位置，处理所述第一信号和所述第二信号以确定第一系数，可以包括：基于所述目标语音位置、所述第一位置和所述第二位置，对所述第一信号和所述第二信号进行差分运算，获取指向第一方向的信号和指向第二方向的信号，所述指向第一方向的信号和所述指向第二方向的信号含有不同比例的有效信号；基于所述指向第一方向的信号和所述指向第二方向的信号，确定与所述有效信号对应的第三信号；以及基于所述第三信号，确定所述第一系数。

在一些实施例中，所述基于目标语音位置、所述第一位置和所述第二位置，处理所述第一信号和所述第二信号以确定第一系数，可以包括：基于所述目标语音位置、所述第一位置和所述第二位置，对所述第一信号和所述第二信号进行差分运算，获取指向第一方向的信号和指向第二方向的信号，所述指向第一方向的信号和所述指向第二方向的信号含有不同比例的有效信号；基于所述指向第一方向的信号和所述指向第二方向的信号，确定所述目标语音的估计信噪比；以及基于所述估计信噪比，确定所述第一系数。

在一些实施例中，所述基于所述第一信号和所述第二信号，确定与多个声源方向有关的多个参数，可以包括：基于每个声源方向、所述第一位置和所述第二位置，对所述第一信号和所述第二信号进行差分运算，确定与每个声源方向有关的参数。

在一些实施例中，所述基于所述多个参数和所述目标语音位置，确定第二系数，可以包括：基于所述多个参数，确定合成声源方向；以及基于所述合成声源方向和所述目标语音位置，确定所述第二系数。

在一些实施例中，所述方法还可以包括对所述第一信号和所述第二信号执行以下操作中的至少一个：对所述第一信号和所述第二信号进行分帧；对所述第一信号和所述第二信号进行加窗平滑；以及将所述第一信号和所述第二信号转换到频域。

在一些实施例中，所述方法可以进一步包括：确定所述第一输出语音信号中至少一个目标子带信号；以及基于单麦滤波算法，处理所述至少一个目标子带信号，获取第二输出语音信号。

在一些实施例中，所述方法可以进一步包括：基于单麦滤波算法处理所述第一信号和/或所述第二信号，确定第三系数；以及基于所述第三系数，处理所述第一输出语音信号，获取第三输出语音信号。

在一些实施例中，所述方法还可以包括：基于所述第一信号和所述第二信号的能量差，确定第四系数；以及基于所述第一系数、所述第二系数和所述第四系数，处理所述第一信号和/或第二信号以获取所述目标语音对应的语音增强后的第四输出语音信号。

本说明书实施例之一提供一种语音增强系统。所述系统可以包括获取模块、处理模块以及生成模块。所述获取模块可以用于获取目标语音的第一信号和第二信号。所述第一信号可以为基于第一位置采集的所述目标语音的信号，所述第二信号可以为基于第二位置采集的所述目标语音的信号。所述处理模块可以用于基于目标语音位置、所述第一位置和所述第二位置，处理所述第一信号和所述第二信号以确定第一系数；基于所述第一信号和所述第二信号，确定与多个声源方向有关的多个参数。每个参数可以对应从一个声源方向发出声音以形成所述第一信号和所述第二信号的概率。所述处理模块还可以用于基于所述多个参数和所述目标语音位置，确定第二系数。所述生成模块可以用于基于所述第一系数和所述第二系数，处理所述第一信号和/或第二信号以获取所述目标语音对应的语音增强后的第一输出语音信号。

附加的特征将在下面的描述中部分地阐述，并且对于本领域技术人员来说，通过查阅以下内容和附图将变得显而易见，或者可以通过实例的产生或操作来了解。本发明的特征可以通过实践或使用以下详细实例中阐述的方法、工具和组合的各个方面来实现和获得。

附图说明

本说明书将以示例性实施例的方式进一步说明，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

图1是根据本说明书一些实施例所示的语音增强系统的应用场景示意图；

图2是根据本说明书的一些实施例所示的示例性计算设备的示例性硬件和/或软件组件的示意图；

图3是根据本说明书的一些实施例所示的示例性移动设备的示例性硬件和/或软件组件的示意图；

图4是根据本说明书一些实施例所示的语音增强系统的示例性框图；

图5是根据本说明书一些实施例所示的语音增强方法的示例性流程图；

图6是根据本说明书一些实施例所示的示例性双麦克风的示意图；

图7是根据本说明书一些实施例所示的ANF算法在不同噪声角度时的滤波效果示意图；

图8是根据本说明书一些实施例所示的确定第一系数方法的示例性流程图；

图9是根据本说明书一些实施例所示的确定第一系数方法的示例性流程图；

图10是根据本说明书一些实施例所示的确定第二系数方法的示例性流程图；

图11是根据本说明书一些实施例所示的单麦滤波方法的示例性流程图；

图12是根据本说明书一些实施例所示的单麦滤波方法的示例性流程图；

图13是根据本说明书一些实施例所示的语音增强方法的示例性流程图。

具体实施方式

为了更清楚地说明本说明书的实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本说明书的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本说明书应用于其他类似情景。应当理解，给出这些示例性实施例仅仅是为了使相关领域的技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”。

本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

图1是根据本说明书一些实施例所示的语音增强系统的应用场景示意图。本说明书实施例所示的语音增强系统100可以应用在各种软件、系统、平台、设备中以实现语音信号的增强处理。例如，可以应用在对各种软件、系统、平台、设备获取的用户语音信号进行语音增强处理，还可以应用在使用设备(如手机、平板、计算机、耳机等)进行语音通话时进行语音增强处理。

在语音通话场景中，会存在环境噪声、他人语音等各种噪声信号干扰，导致采集的目标语音不是干净的语音信号。为了提高语音通话的质量，需要对目标语音进行噪声滤除、语音信号增强等语音增强处理以得到干净的语音信号。本说明书实施例提出一种语音增强的系统和方法，可以实现对例如上述语音通话场景中的目标语音进行增强处理。

如图1所示，语音增强系统100可以包括处理设备110、采集设备120、终端130、存储设备140以及网络150。

在一些实施例中，处理设备110可以处理从其他设备或系统组件获得的数据和/或信息。处理设备110可以基于这些数据、信息和/或处理结果执行程序指令，以执行一个或多个本说明书中描述的功能。例如，处理设备110可以获取目标语音的第一信号和第二信号并进行处理，输出语音增强后的输出语音信号。

在一些实施例中，处理设备110可以是单个处理设备或者处理设备组，例如服务器或服务器组。所述处理设备组可以是集中式的或分布式的(例如，处理设备110可以是分布式的系统)。在一些实施例中，处理设备110可以是本地的或远程的。例如，处理设备110可以通过网络150访问采集设备120、终端130、存储设备140中的信息和/或数据。再例如，处理设备110可以直接连接到采集设备120、终端130、存储设备140以访问存储的信息和/或数据。在一些实施例中，处理设备110可以在云平台上实现。仅作为示例，所述云平台可以包括私有云、公共云、混合云、社区云、分布云、云之间、多重云等或其任意组合。在一些实施例中，处理设备110可以在与本说明书图2所示的计算设备上实现。例如，处理设备110可以在如图2所示的计算设备200中的一个或多个部件上实现。

在一些实施例中，处理设备110可以包括处理引擎112。处理引擎112可处理与语音增强有关的数据和/或信息以执行一个或多个本说明书中描述的方法或功能。例如，处理引擎112可以获取目标语音的第一信号和第二信号，所述第一信号为基于第一位置采集的所述目标语音的信号，所述第二信号为基于第二位置采集的所述目标语音的信号。在一些实施例中，处理引擎112可以处理所述第一信号和/或第二信号以获取目标语音对应的语音增强后的输出语音信号。

在一些实施例中，处理引擎112可以包括一个或以上处理引擎(例如，单芯片处理引擎或多芯片处理器)。仅作为示例，处理引擎112可以包括中央处理单元(CPU)、专用集成电路(ASIC)、专用指令集处理器(ASIP)、图像处理单元(GPU)、物理运算处理单元(PPU)、数字信号处理器(DSP)、现场可程序门阵列(FPGA)、可程序逻辑装置(PLD)、控制器、微控制器单元、精简指令集计算机(RISC)、微处理器等或以上任意组合。在一些实施例中，处理引擎112可以集成在采集设备120或终端130中。

在一些实施例中，采集设备120可以用于采集目标语音的语音信号，例如用于采集目标语音的第一信号和第二信号。在一些实施例中，采集设备120可以是单个的采集设备，或者是多个采集设备构成的采集设备组。在一些实施例中，采集设备120可以是包含一个或多个麦克风或其它声音传感器(例如，120-1、120-2，...，120-n)的设备(例如，手机、耳机、对讲机、平板、计算机等)。例如，采集设备120可以包括至少两个麦克风，所述至少两个麦克风之间相隔一定的距离。当采集设备120对用户语音进行采集时，所述至少两个麦克风可以在不同的位置同时采集来自用户嘴部的声音。所述至少两个麦克风可以包括第一麦克风和第二麦克风。第一麦克风可以位于距离用户嘴部较近的位置，第二麦克风可以位于距离用户嘴部较远的位置，第二麦克风与第一麦克风的连线可以向用户嘴部所在的位置延伸。

采集设备120可以将采集的语音转换为电信号，并发送至处理设备110进行处理。例如，上述第一麦克风和第二麦克风可以将采集得到用户语音分别转化为第一信号和第二信号。处理设备110可以基于第一信号和第二信号实现对语音的增强处理。

在一些实施例中，采集设备120可以通过网络150与处理设备110、终端130、存储设备140进行传输信息和/或数据。在一些实施例中，采集设备120可以直接连接到处理设备110或存储设备140以传输信息和/或数据。例如，采集设备120和处理设备110可以是同一个电子设备(例如，耳机、眼镜等)上的不同部分，并通过金属导线连接。

在一些实施例中，终端130可以是用户或其它实体使用的终端，例如可以是目标语音对应的声源(人或其它实体)使用的终端，也可以是与目标语音对应的声源(人或其它实体)进行语音通话的其它用户或实体使用的终端。

在一些实施例中，终端130可以包括移动设备130-1、平板电脑130-2、笔记本电脑130-3等或其任意组合。在一些实施例中，移动设备130-1可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、增强现实设备等或其任意组合。在一些实施例中，智能家居设备可以包括智能照明设备、智能电器控制设备、智能监控设备、智能电视、智能摄像机、对讲机等或其任意组合。在一些实施例中，可穿戴设备可以包括智能手镯、智能鞋袜、智能眼镜、智能头盔、智能手表、智能耳机、智能穿着、智能背包、智能配件等或其任意组合。在一些实施例中，智能移动设备可以包括智能电话、个人数字助理(PDA)、游戏设备、导航设备、销售点(POS)等或其任意组合。在一些实施例中，虚拟现实设备和/或增强现实设备可以包括虚拟现实头盔、虚拟现实眼镜、虚拟现实眼罩、增强型虚拟现实头盔、增强现实眼镜、增强现实眼罩等或其任意组合。

在一些实施例中，终端130可以获取/接收目标语音的语音信号，如第一信号和第二信号。在一些实施例中，终端130可以获取/接收目标语音的语音增强后的输出语音信号。在一些实施例中，终端130可以直接从采集设备120、存储设备140获取/接收目标语音的语音信号，如第一信号和第二信号，或者终端130可以通过网络150从采集设备120、存储设备140获取/接收目标语音的语音信号，如第一信号和第二信号。在一些实施例中，终端130可以直接从处理设备110、存储设备140获取/接收目标语音的语音增强后的输出语音信号，或者终端130可以通过网络150从处理设备110、存储设备140获取/接收目标语音的语音增强后的输出语音信号。

在一些实施例中，终端130可以向处理设备110发送指令，处理设备110可以执行来自终端130指令。例如，终端130可以向处理设备110发送实现目标语音的语音增强方法的一个或多个指令，以令处理设备110执行语音增强方法的一个或多个操作/步骤。

存储设备140可以存储从其他设备或系统组件中获得的数据和/或信息。例如，存储设备140可以存储目标语音的语音信号，如第一信号和第二信号，还可以存储目标语音的语音增强后的输出语音信号。在一些实施例中，存储设备140可以存储从采集设备120获取的数据。在一些实施例中，存储设备140可以存储从处理设备110获取的数据。在一些实施例中，存储设备140可以存储处理设备110用于执行或使用以完成本说明书中描述的示例性方法的数据和/或指令。在一些实施例中，存储设备140可以包括大容量存储器、可移动存储器、易失性读写存储器、只读存储器(ROM)等或其任意组合。示例性的大容量储存器可以包括磁盘、光盘、固态磁盘等。示例性可移动存储器可以包括闪存驱动器、软盘、光盘、存储卡、压缩盘、磁带等。示例性的挥发性只读存储器可以包括随机存取内存(RAM)。示例性的RAM可包括动态RAM(DRAM)、双倍速率同步动态RAM(DDR SDRAM)、静态RAM(SRAM)、闸流体RAM(T-RAM)和零电容RAM(Z-RAM)等。示例性的ROM可以包括掩模ROM(MROM)、可编程ROM(PROM)、可擦除可编程ROM(PEROM)、电子可擦除可编程ROM(EEPROM)、光盘ROM(CD-ROM)和数字通用磁盘ROM等。在一些实施例中，所述存储设备140可以在云平台上实现。仅作为示例，所述云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。

在一些实施例中，存储设备140可以连接到网络150以与语音增强系统100中的一个或以上组件(例如，处理设备110、采集设备120、终端130)通信。语音增强系统100中的一个或以上组件可以通过网络150访问存储设备140中存储的数据或指令。在一些实施例中，存储设备140可以与语音增强系统100中的一个或以上组件(例如，处理设备110、采集设备120、终端130)直接连接或通信。在一些实施例中，存储设备140可以是处理设备110的一部分。

在一些实施例中，语音增强系统100的一个或以上组件(例如，处理设备110、采集设备120、终端130)可以具有访问存储设备140的许可。在一些实施例中，语音增强系统100的一个或以上组件可以在满足一个或以上条件时读取和/或修改与目标语音相关的信息。

网络150可以促进信息和/或数据的交换。在一些实施例中，语音增强系统100中的一个或以上组件(例如，处理设备110、采集设备120、终端130和存储设备140)可以通过网络150向/从语音增强系统100中的其他组件发送/接收信息和/或数据。例如，处理设备110可以通过网络150从采集设备120或存储设备140获取目标语音的第一信号和第二信号，终端130可以通过网络150从处理设备110或存储设备140获取目标语音的语音增强后的输出语音信号。在一些实施例中，网络150可以为任意形式的有线或无线网络或其任意组合。仅作为示例，网络150可以包括缆线网络、有线网络、光纤网络、远程通信网络、内部网络、互联网、局域网(LAN)、广域网(WAN)、无线局域网(WLAN)、城域网(MAN)、广域网(WAN)、公共交换电话网络(PSTN)、蓝牙网络、紫蜂网络、近场通讯(NFC)网络、全球移动通讯系统(GSM)网络、码分多址(CDMA)网络、时分多址(TDMA)网络、通用分组无线服务(GPRS)网络、增强数据速率GSM演进(EDGE)网络、宽带码分多址接入(WCDMA)网络、高速下行分组接入(HSDPA)网络、长期演进(LTE)网络、用户数据报协议(UDP)网络、传输控制协议/互联网协议(TCP/IP)网络、短讯息服务(SMS)网络、无线应用协议(WAP)网络、超宽带(UWB)网络、红外线等或其任意组合。在一些实施例中，语音增强系统100可以包括一个或以上网络接入点。例如，语音增强系统100可以包括有线或无线网络接入点，例如基站和/或无线接入点150-1、150-2、…，语音增强系统100的一个或以上组件可以通过其连接到网络150以交换数据和/或信息。

本领域普通技术人员将理解，当语音增强系统100的元件或组件执行时，组件可以通过电信号和/或电磁信号执行。例如，当采集设备120向处理设备110发送目标语音的第一信号和第二信号时，采集设备120可以生成编码的电信号。然后，采集设备120可以将电信号发送到输出端口。若采集设备120经由有线网络或数据传输线与采集设备120通信，则输出端口可物理连接至电缆，其进一步将电信号传输给采集设备120的输入端口。如果采集设备120经由无线网络与采集设备120通信，则采集设备120的输出端口可以是一个或以上天线，其将电信号转换为电磁信号。在电子设备内，例如采集设备120和/或处理设备110，当处理指令、发出指令和/或执行动作时，所述指令和/或动作通过电信号进行。例如，当处理设备110从存储介质(例如，存储设备140)检索或保存数据时，它可以将电信号发送到存储介质的读/写设备，其可以在存储介质中读取或写入结构化数据。该结构化数据可以通过电子设备的总线，以电信号的形式传输至处理器。此处，电信号可以指一个电信号、一系列电信号和/或至少两个不连续的电信号。

图2是根据本说明书的一些实施例所示的示例性计算设备200的示意图。在一些实施例中，可以在计算设备200上实现处理设备110。如图2所示，计算设备200可以包括存储器210、处理器220、输入/输出(I/O)230和通信端口240。

存储器210可以存储从采集设备120、终端130、存储设备140或语音增强系统100的任何其他组件获得的数据/信息。在一些实施例中，存储器210可以包括大容量存储器、可移动存储器、易失性读写存储器、只读存储器(ROM)等或其任意组合。示例性的大容量储存器可以包括磁盘、光盘、固态磁盘等。示例性可移动存储器可以包括闪存驱动器、软盘、光盘、存储卡、压缩盘、磁带等。示例性的挥发性只读存储器可以包括随机存取内存(RAM)。示例性的RAM可包括动态RAM(DRAM)、双倍速率同步动态RAM(DDR SDRAM)、静态RAM(SRAM)、闸流体RAM(T-RAM)和零电容RAM(Z-RAM)等。示例性的ROM可以包括掩模ROM(MROM)、可编程ROM(PROM)、可擦除可编程ROM(PEROM)、电子可擦除可编程ROM(EEPROM)、光盘ROM(CD-ROM)和数字通用磁盘ROM等。在一些实施例中，存储器210可以存储一个或多个程序和/或指令以执行本说明书中描述的示例性方法。例如，存储器210可以存储处理设备110可执行以实现语音增强方法的程序。

处理器220可以根据本说明书描述的技术执行计算机指令(程序代码)并执行处理设备110的功能。计算机指令可以包括例如例程、程序、对象、组件、信号、数据结构、过程、模块和功能，其执行本文描述的特定功能。例如，处理器220可以处理从采集设备120、终端130、存储设备140和/或语音增强系统100的任何其他组件获取的数据。例如，处理器220可以处理从采集设备120获取的目标语音的第一信号和第二信号，以得到语音增强后的输出语音信号。在一些实施例中，可将输出语音信号存储在存储设备140、存储器210等中。在一些实施例中，可通过I/O230将输出语音信号输出给扬声器等播报设备。在一些实施例中，处理器220可以执行从终端130获得的指令。

在一些实施例中，处理器220可以包括一个或多个硬件处理器，例如微控制器、微处理器、精简指令集计算机(RISC)、专用集成电路(ASIC)、专用指令集处理器(ASIP)、中央处理单元(CPU)、图形处理单元(GPU)、物理处理单元(PPU)、微控制器单元、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、高级RISC机器(ARM)、可编程逻辑设备(PLD)、能够执行一个或多个功能的任何电路或处理器等或其任意组合。

仅出于说明的目的，在计算设备200中仅描述了一个处理器。然而，应当注意，本说明书中的计算设备200也可以包括多个处理器。因此，如本说明书中所描述的由一个处理器执行的操作和/或方法步骤也可以由多个处理器联合或分别执行。例如，如果在本说明书中，计算设备200的处理器同时执行操作A和操作B，则应当理解，操作A和操作B也可以由计算设备中的两个或更多个不同的处理器联合或分开地执行。例如，第一处理器执行操作A，第二处理器执行操作B，或者第一处理器和第二处理器共同执行操作A和B。

I/O230可以输入或输出信号、数据和/或信息。在一些实施例中，I/O230可以使用户能够与处理设备110交互。在一些实施例中，I/O230可以包括输入设备和输出设备。示例性的输入设备可以包括键盘、鼠标、触摸屏、麦克风等或其组合。示例性的输出设备可以包括显示设备、扬声器、打印机、投影仪等或其组合。示例性的显示设备可以包括液晶显示器(LCD)、基于发光二极管(LED)的显示器、显示器、平板显示器、曲面屏、电视设备、阴极射线管(CRT)等或其组合。

通信端口240可以与网络(例如，网络150)连接，以促进数据通信。通信端口240可以在处理设备110与采集设备120、终端130或存储设备140之间建立连接。该连接可以是有线连接、无线连接或两者的组合，以实现数据传输和接收。有线连接可以包括电缆、光缆、电话线等或其任何组合。无线连接可以包括蓝牙、Wi-Fi、WiMax、WLAN、ZigBee、移动网络(例如3G、4G、5G等)等或其组合。在一些实施例中，通信端口240可以是标准化的通信端口，例如RS232、RS485等。在一些实施例中，通信端口240可以是专门设计的通信端口。例如，可以根据需要传输的语音信号来设计通信端口240。

图3是根据本说明书的一些实施例所示的可以在其上实现终端130的示例性移动设备300的示例性硬件和/或软件组件的示意图。如图3所示，移动设备300可以包括通信单元310、显示单元320、图形处理单元(GPU)330、中央处理单元(CPU)340、输入/输出350、内存360和存储器370。

中央处理单元(CPU)340可以包括接口电路和类似于处理器220的处理电路。在一些实施例中，任何其他合适的组件，包括但不限于系统总线或控制器(未示出)，也可包括在移动设备300内。在一些实施例中，移动操作系统362(例如，IOS^TM、Andro^TM、Windows Phone^TM等)和一个或以上应用程序364可以从存储器370加载到内存360中，以便由中央处理单元(CPU)340执行。应用程序364可以包括浏览器或任何其他合适的移动应用程序，用于从移动设备300上的语音增强系统接收和呈现与目标语音、目标语音的语音增强有关的信息。信号和/或数据的交互可以通过输入/输出设备350实现，并通过网络150提供给处理引擎112和/或语音增强系统100的其他组件。

为了实现上述各种模块、单元及其功能，计算机硬件平台可以用作一个或以上元件(例如，图1中描述的处理设备110的模块)的硬件平台。由于这些硬件元件、操作系统和程序语言是常见的，因此可以假设本领域技术人员熟悉这些技术并且他们能够根据本文中描述的技术提供路线规划中所需的信息。具有用户界面的计算机可以用作个人计算机(PC)或其他类型的工作站或终端设备。在正确编程之后，具有用户界面的计算机可以用作处理设备如服务器。可以认为本领域技术人员也可以熟悉这种类型的计算机设备的这种结构、程序或一般操作。因此，没有针对附图描述额外的解释。

图4是根据本说明书一些实施例所示的语音增强系统的示例性框图。在一些实施例中，语音增强系统100可以在处理设备110上实施。如图4所示，处理设备110可以包括获取模块410、处理模块420以及生成模块430。

获取模块410可以用于获取目标语音的第一信号和第二信号。在一些实施例中，目标语音可以包括目标声源所发出的语音。在一些实施例中，可以用不同的采集设备(例如，不同的麦克风)在不同位置采集目标语音的信号。例如，第一信号可以是第一麦克风(或前麦克风)基于第一位置采集的目标语音的信号，第二信号可以是第二麦克风(或后麦克风)基于第二位置采集的目标语音的信号。在一些实施例中，获取模块410可以从所述不同的采集设备直接获取目标语音的第一信号和第二信号。在一些实施例中，所述第一信号和第二信号可以存储在存储设备(例如，存储设备140、存储器210、存储器370、外接存储设备等)中。获取模块410可以从所述存储设备获取所述第一信号和第二信号。

处理模块420可以用于基于目标语音位置、所述第一位置和所述第二位置，处理所述第一信号和所述第二信号以确定第一系数。在一些实施例中，处理模块420可以用于基于自适应零点形成(Adaptive Null-Forming,ANF)算法确定所述第一系数。例如，处理模块420可以用于基于目标语音位置、第一位置和第二位置，对第一信号和第二信号进行差分运算，获取指向第一方向的信号和指向第二方向的信号。所述指向第一方向的信号和所述指向第二方向的信号含有不同比例的有效信号。进一步地，处理模块420可以用于基于指向第一方向的信号和指向第二方向的信号，确定第四信号。例如，处理模块420可以基于维纳滤波算法，通过自适应滤波器对指向第一方向的信号和指向第二方向的信号进行滤波，确定第四信号。在一些实施例中，处理模块420可以对第四信号中的低频成分进行增强，以获取第三信号。进一步地，处理模块420可以用于基于所述第三信号，确定第一系数。例如，处理模块420可以将第三信号与第一信号或第二信号的比值确定为第一系数。可选地或附加地，处理模块420可以基于第四信号、指向第一方向的信号和指向第二方向的信号，更新自适应差分运算的自适应参数。

在一些实施例中，为了确定所述第一系数，处理模块420还可以基于指向第一方向的信号和指向第二方向的信号，确定目标语音的估计信噪比。例如，所述估计信噪比可以是指向第一方向的信号与指向第二方向的信号的比值。进一步地，处理模块420基于所述估计信噪比，确定第一系数。

处理模块420还可以用于基于所述第一信号和所述第二信号，确定与多个声源方向有关的多个参数。在一些实施例中，所述多个声源方向可以包括预设的声源方向。在一些实施例中，处理模块420可以基于每个声源方向、第一位置和第二位置，对第一信号和第二信号进行差分运算，确定与每个声源方向有关的参数。在一些实施例中，所述参数可以包括似然函数。每个参数可以对应从一个声源方向发出声音以形成第一信号和第二信号的概率。

处理模块420还可以用于基于所述多个参数和所述目标语音位置，确定第二系数。在一些实施例中，为了确定第二系数，处理模块420可以基于所述多个参数，确定合成声源方向。合成声源可以认为是由目标声源和噪声源综合形成的虚拟声源。仅作为示例，处理模块420可以确定所述多个参数中数值最大的参数。所述数值最大的参数可以表示从与其对应的声源方向发出声音以形成所述第一信号和所述第二信号的概率最大。由此，处理模块420可以确定所述数值最大的参数对应的声源方向为合成声源的方向。进一步地，处理模块420可以基于所述合成声源方向和目标语音位置，确定所述第二系数。例如，处理模块420可以判断所述目标语音位置是否位于合成声源方向，或者所述目标语音位置是否在合成声源方向的一定角度范围之内。响应于所述目标语音位置位于所述合成声源方向或者在合成声源方向的一定角度范围之内，将所述第二系数设为第一数值。响应于所述目标语音位置不位于所述合成声源方向或者不在合成声源方向的一定角度范围之内，将所述第二系数设为第二数值。可选地或附加地，处理模块420可以基于平滑因子，对所述第二系数进行平滑。再例如，处理模块420可以基于所述目标语音位置和所述合成声源方向之间的角度，通过回归函数确定所述第二系数。

生成模块430可以用于基于所述第一系数和所述第二系数，处理所述第一信号和/或第二信号以获取所述目标语音对应的语音增强后的第一输出语音信号。在一些实施例中，生成模块430可以用于基于第一系数和第二系数，对第一信号和/或第二信号进行加权处理。例如，生成模块430可以根据第一系数的值，对基于第一信号和第二信号获取的第三信号赋予相应的权重，并根据第二系数的值，对所述第一信号或所述第三信号赋予相应的权重。生成模块430可以进一步地处理上述加权后的信号以获取语音增强后的第一输出语音信号。例如，所述第一输出语音信号可以是加权后的第三信号和第一信号的平均值。再例如，第一输出语音信号可以是加权后的第三信号和第一信号的乘积。再例如，第一输出语音信号可以是加权后的第三信号和第一信号两者中较大的值。再例如，生成模块430可以基于第一系数对所述第三信号加权后，再基于所述第二系数进行再次加权处理。

需要注意的是，以上对于处理设备110及其模块的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该系统的原理后，可以在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子系统与其他模块连接。例如，图4中披露的获取模块410和处理模块420可以是一个系统中的不同模块，也可以是一个模块实现上述的两个或两个以上模块的功能。例如，获取模块410和处理模块420可以是两个模块，也可以是一个模块同时具有获取目标语音以及处理目标语音的功能。诸如此类的变形，均在本说明书的保护范围之内。

应当理解，图4所示的系统及其模块可以利用各种方式来实现。例如，在一些实施例中，系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中，硬件部分可以利用专用逻辑来实现；软件部分则可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用例如由各种类型的处理器所执行的软件实现，还可以由上述硬件电路和软件的结合(例如，固件)来实现。

图5是根据本说明书一些实施例所示的语音增强方法的示例性流程图。在一些实施例中，方法500可以由处理设备110、处理引擎112、处理器220执行。例如，方法500可以以程序或指令的形式存储在存储设备(例如，存储设备140或处理设备110的存储单元)中，当处理设备110、处理引擎112、处理器220或图4所示的模块执行程序或指令时，可以实现方法500。在一些实施例中，方法500可以利用以下未描述的一个或以上附加操作/步骤，和/或不通过以下所讨论的一个或以上操作/步骤完成。另外，如图5所示的操作/步骤的顺序并非限制性的。

步骤510，处理设备110(例如，获取模块410)可以获取目标语音的第一信号和第二信号。

在一些实施例中，目标语音可以包括目标声源所发出的语音。目标声源可以是用户、机器人(例如，自动应答机器人、将人的输入数据如文本、手势等转换为语音信号播报的机器人等)、或者能够发出语音信息的其它生物和设备。在一些实施例中，目标声源所发出的语音可以作为有效信号。在一些实施例中，目标语音还可以包括无用或带来干扰的噪声信号，例如，周围环境产生的噪声或者目标声源外其他声源的声音。示例性的噪声可以包括加性噪声、白噪声、乘性噪声等或其任意的组合。加性噪声是指与语音信号无关的独立噪声信号，乘性噪声是指与语音信号成正比的噪声信号，白噪声是指噪声的功率谱为一常数的噪声信号。在一些实施例中，当目标语音中包括噪声信号时，目标语音可以是有效信号与噪声信号的合成信号。所述合成信号可以等效为由目标声源和噪声声源的合成声源所发出的语音信号。

在一些实施例中，可以用不同的采集设备(例如，不同的麦克风)在不同位置采集目标语音的信号。以双麦克风为例，图6是根据本说明书一些实施例所示的示例性双麦克风的示意图。如图6所示，目标声源(如用户的嘴部)位于双麦克风的左上方，目标声源指向双麦克风的方向(例如目标声源指向第一麦克风A的方向)与双麦克风的连线形成的夹角为θ。第一信号Sig 1可以为第一麦克风A(或前麦克风)基于第一位置采集的目标语音的信号，第二信号Sig 2可以为第二麦克风B(或后麦克风)基于第二位置采集的目标语音的信号。仅作为示例，第一位置和第二位置可以是距离为d且相对于目标声源(如用户的嘴部)距离不同的两个位置。d可以根据实际需求设置，例如，在特定的场景下，d可以被设置为不小于0.5cm，或者不小于1cm。在一些实施例中，第一信号或第二信号可以包括采集设备在接收到目标语音后所生成的电信号(或者经过进一步处理后所生成的电信号)，其可以反映目标语音相对于采集设备的位置信息。在一些实施例中，第一信号和第二信号可以是目标语音在时域上的呈现。例如，处理设备110可以对第一麦克风A和第二麦克风B获取的信号进行分帧以分别获得第一信号和第二信号。以获取第一信号为例，处理设备110可以将第一麦克风获取的信号在时域上分成多个分段(例如，平均分成或交叠分成时长为10-30ms的多个分段)，每个分段可以作为一帧信号，第一信号可以包括其中一帧或多帧信号。在一些可替代的实施例中，第一信号和第二信号可以是目标语音在频域上的呈现。例如，处理设备110可以对上述一帧或多帧信号进行快速傅里叶变换(Fast Fourier Transform,FFT)以获得第一信号或第二信号。可选地，在对帧信号进行FFT之前，可以先对帧信号进行加窗平滑处理。具体地，处理设备110可以将帧信号与窗函数相乘，以对帧信号进行周期扩张，获得周期性的连续信号。示例性的窗函数可以包括矩形窗、汉宁窗、平顶窗、指数窗等。加窗平滑后的帧信号可以进一步进行FFT变换而生成第一信号或第二信号。

在一些实施例中，第一信号和第二信号的差异可以与目标语音和噪声信号在不同采集位置的强度、信号幅值、相位差异等相关。

步骤520，处理设备110(例如，处理模块420)可以基于目标语音位置、所述第一位置和所述第二位置，处理所述第一信号和所述第二信号以确定第一系数。

在一些实施例中，处理设备110可以基于自适应零点形成(Adaptive Null-Forming,ANF)算法确定所述第一系数。所述ANF算法可以包括两个差分波束形成器以及自适应滤波器。在一些实施例中，处理设备110可以基于所述目标语音位置、所述第一位置和所述第二位置，通过所述两个差分波束形成器对所述第一信号和所述第二信号进行差分运算，获取指向第一方向的信号和指向第二方向的信号。例如，处理设备110可以根据差分麦克风原理，基于目标语音位置、第一位置和第二位置对第一信号和第二信号进行时延处理。并对时延后的第一信号和第二信号进行差分运算，获取指向第一方向的信号和指向第二方向的信号。在一些实施例中，指向第一方向的信号为指向目标声源方向的信号，指向第二方向的信号为指向与目标声源相反方向的信号。所述指向第一方向的信号和指向第二方向的信号含有不同比例的有效信号。所述有效信号是指目标声源所发出的语音。例如，所述指向第一方向的信号中可以含有较大比例的有效信号(和/或较小比例的噪声信号)。所述指向第二方向的信号中可以含有较小比例的有效信号(和/或较大比例的噪声信号)。在一些实施例中，所述指向第一方向的信号和指向第二方向的信号可以对应两个指向麦克风。进一步的，处理设备110可以基于所述指向第一方向的信号和指向第二方向的信号，确定与有效信号对应的第三信号。例如，处理设备110可以对所述指向第一方向的信号和指向第二方向的信号进行自适应差分运算，确定第四信号。仅作为示例，在所述自适应差分运算过程中，处理设备110可以基于维纳滤波算法，通过所述自适应滤波器对指向第一方向的信号和指向第二方向的信号进行滤波，确定第四信号。在一些实施例中，在所述自适应差分运算过程中，处理设备110可以调整自适应滤波器的参数，使第四信号对应的心形图零点指向噪声方向。在一些实施例中，处理设备110可以对第四信号中的低频成分进行增强，以获取所述第三信号。进一步地，处理设备110可以基于所述第三信号，确定所述第一系数。例如，第一系数可以是第三信号与第一信号或第二信号的比值。关于基于第三信号确定所述第一系数的更多内容可以参见图8及其描述，此处不再赘述。

在一些实施例中，为了确定所述第一系数，处理设备110可以基于所述指向第一方向的信号和所述指向第二方向的信号，确定所述目标语音的估计信噪比。例如，所述估计信噪比可以是所述指向第一方向的信号与所述指向第二方向的信号之间的比值。进一步地，处理设备110可以基于所述估计信噪比确定第一系数。在一些实施例中，处理设备110可以基于估计信噪比与第一系数之间的映射关系确定所述第一系数。所述映射关系可以是多种形式，例如，映射关系数据库或关系函数。关于基于估计信噪比确定第一系数的更多内容可以参见图9及其描述，此处不再赘述。

在一些实施例中，第一系数可以反映噪声信号对有效信号的影响。以基于估计信噪比确定的第一系数为例，所述估计信噪比可以是所述指向第一方向的信号与所述指向第二方向的信号之间的比值。所述指向第一方向的信号中可能含有较大比例的有效信号(和/或较小比例的噪声信号)。所述指向第二方向的信号中可能含有较小比例的有效信号(和/或较大比例的噪声信号)。因此，噪声信号的大小可以影响估计信噪比的值，从而影响第一系数的值。例如，噪声信号越大，估计信噪比的值越小，根据估计信噪比确定的第一系数的值也会相应的变化。由此，第一系数可以反映噪声信号对有效信号的影响。

在一些实施例中，第一系数与噪声源方向有关。例如，当噪声源方向接近目标声源方向时，第一系数可以具有较大的值；当噪声源方向偏离目标声源方向较大角度时，第一系数可以具有较小的值。所述噪声源方向为噪声源相对于双麦克风的方向，目标声源方向为目标声源(如用户的嘴部)相对于双麦克风的方向。处理设备110可以根据该第一系数处理与有效信号对应的第三信号。例如，第一系数可以表示与有效信号对应的第三信号在语音增强过程中的权重。仅仅作为示例，当第一系数为“1”时，表示第三信号可以被完全保留而作为增强后的语音信号中的一部分；当第一系数为“0”时，表示从增强后的语音信号中完全滤除第三信号。

在一些实施例中，当噪声源方向与目标声源方向之间的角度差较大时，第一系数可以具有较小的值，根据该第一系数处理的第三信号可以被减弱或去除；当噪声源方向与目标声源方向之间的角度差较小时，第一系数可以具有较大的值，根据该第一系数处理的第三信号可以被保留作为增强后的语音信号中的一部分。由此，当噪声源方向与目标声源方向之间的角度差较大时，ANF算法可以具有较好的滤波效果图7是根据本说明书一些实施例所示的ANF算法在不同噪声角度时的滤波效果示意图。所述噪声角度是指噪声源方向与目标声源方向之间的角度。如图7所示，图a-f分别表示在噪声角度为180°、150°、120°、90°、60°、30°时，ANF算法的滤波效果。根据图7可知，当噪声角度较大时(例如，180°、150°、120°、90°)，ANF算法的滤波效果较好。当噪声角度较小时(例如，60°、30°)，ANF算法的滤波效果较差。

步骤530，处理设备110(例如，处理模块420)可以基于所述第一信号和所述第二信号，确定与多个声源方向有关的多个参数。

在一些实施例中，所述多个声源方向可以包括预设的声源方向。例如，所述多个声源方向可以具有预设的入射角(例如，0°、30°、60°、90°、120°、180°等)。所述声源方向可以根据实际需求选择和/或调整，此处不做限制。在一些实施例中，处理设备110可以基于每个声源方向、所述第一位置和所述第二位置，对所述第一信号和所述第二信号进行差分运算，确定与每个声源方向有关的参数。例如，所述多个声源方向中的每个声源方向可以对应一个时延，处理设备110可以基于该时延对所述第一信号和第二信号进行差分运算。进一步地，处理设备110可以基于所述差分运算计算与所述声源方向有关的参数。在一些实施例中，所述参数可以包括似然函数。例如，对于当前帧的每一个信号点，处理设备110可以计算出与所述多个声源方向中的每个声源方向对应的似然函数。在一些实施例中，所述似然函数可以对应从所述声源方向发出声音以形成所述第一信号和所述第二信号的概率。仅作为示例，声源方向为θ＝30°时的似然函数值经过归一化处理后为0.8，可以表示从声源方向为θ＝30°发出声音以形成所述第一信号和所述第二信号的概率为80％。

步骤540，处理设备110(例如，处理模块420)可以基于所述多个参数和所述目标语音位置，确定第二系数。

在一些实施例中，处理设备110可以基于所述多个参数确定合成声源的方向。所述合成声源可以认为是由目标声源和噪声源综合形成的虚拟声源，也就是说，由目标声源和噪声源共同在双麦克风处产生的信号(例如，所述第一信号和所述第二信号)可以等效为是由该合成声源在双麦克风处产生的。

在一些实施例中，为了确定合成声源的方向，处理设备110可以确定所述多个参数中数值最大的参数。所述数值最大的参数可以表示从与其对应的声源方向发出声音以形成所述第一信号和所述第二信号的概率最大。由此，处理设备110可以确定所述数值最大的参数对应的声源方向为合成声源的方向。作为另一示例，为了确定合成声源的方向，处理设备110可以构建极点指向所述多个声源方向的多个指向麦克风。所述多个指向麦克风中的每个麦克风的响应为心形图。为便于描述，所述多个声源方向对应的心形图可以称为模拟心形图。每个模拟心形图的极点可以指向对应的声源方向。进一步地，基于所述第一信号和所述第二信号，处理设备110可以计算出与所述多个声源方向中的每个声源方向对应的似然函数。所述对应多个声源方向的似然函数的响应可以为心形图。为便于描述，所述似然函数对应的心形图可以称为合成心形图(或实际心形图)。合成心形图的极点指向合成声源的方向。处理设备110可以确定与实际心形图的极点指向最接近的模拟心形图，并确定所述模拟心形图对应的声源方向为合成声源的方向。

在一些实施例中，处理设备110可以基于所述合成声源方向和所述目标语音位置，确定所述第二系数。例如，处理设备110可以判断所述目标语音位置是否位于合成声源方向，或者所述目标语音位置是否在合成声源方向的一定角度范围之内。响应于所述目标语音位置位于所述合成声源方向或者在合成声源方向的一定角度范围之内，将所述第二系数设为第一数值。响应于所述目标语音位置不位于所述合成声源方向或者不在合成声源方向的一定角度范围之内，将所述第二系数设为第二数值。可选地或附加地，处理设备110可以基于平滑因子，对所述第二系数进行平滑。再例如，处理设备110可以基于所述目标语音位置和所述合成声源方向之间的角度，通过回归函数确定所述第二系数。关于确定第二系数的更多内容可以参见图10及其描述，此处不再赘述。

在一些实施例中，第二系数可以反映合成声源相对于目标声源的方向，从而减弱或去除不在目标声源方向上的合成声源和/或相对于目标声源方向偏差一定角度的合成声源。在一些实施例中，第二系数可以用于滤除噪声源方向与目标声源方向之间角度差超过一定阈值的噪声。例如，当噪声源方向与目标声源方向之间角度差超过一定阈值时，第二系数可以具有较小的值；当噪声源方向与目标声源方向之间角度差小于一定阈值时，第二系数可以具有较大的值。处理设备110可以根据该第二系数处理第一信号或第三信号。例如，第二系数可以表示第一信号在语音增强过程中的权重。仅仅作为示例，当第二系数为“1”时，表示第一信号可以被完全保留而作为增强后的语音信号中的一部分；当第二系数为“0”时，表示从增强后的语音信号中完全滤除第一信号。

步骤550，处理设备110(例如，生成模块430)可以基于所述第一系数和所述第二系数，处理所述第一信号和/或第二信号以获取所述目标语音对应的语音增强后的第一输出语音信号。

在一些实施例中，处理设备110可以基于所述第一系数和所述第二系数，对所述第一信号和/或第二信号进行加权处理。以第一系数为例，处理设备110可以根据第一系数的值，对基于第一信号和第二信号获取的第三信号赋予相应的权重。例如，处理设备110可以根据第一系数所在范围赋予第三信号相应的权重。再例如，处理设备110可以将所述第一系数的值直接作为第三信号的权重。再例如，当第一系数的值小于预设的第一系数阈值时，处理设备110可以将第三信号的权重设为0。以第二系数为例，处理设备110可以根据第二系数的值，对第一信号或第三信号赋予相应的权重。处理设备110可以进一步地处理上述加权后的信号以获取语音增强后的第一输出语音信号。例如，所述第一输出语音信号可以是加权后的第三信号和第一信号的平均值。再例如，第一输出语音信号可以是加权后的第三信号和第一信号的乘积。再例如，第一输出语音信号可以是加权后的第三信号和第一信号两者中较大的值。再例如，生成模块430可以基于第一系数对所述第三信号加权后，再基于所述第二系数进行再次加权处理。

需要注意的是，以上对于语音增强方法500的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该方法的原理后，可以在不背离这一原理的情况下，对各个步骤进行任意组合，或者，可以增加或删减任意步骤。

在一些实施例中，语音增强方法500还可以包括单麦滤波过程。例如，处理设备110可以基于单麦滤波算法对所述第一输出语音信号进行单麦滤波。再例如，处理设备110可以基于单麦滤波算法处理所述第一信号和/或第二信号以获取第三系数，并基于所述第三系数对所述第一输出语音信号进行滤波。关于单麦滤波过程的更多内容可以参见图11、图12及其描述，此处不再赘述。

在一些实施例中，处理设备110还可以基于第四系数进行语音增强处理。例如，处理设备110基于第一信号和第二信号的能量差，确定第四系数。并基于第一系数、第二系数和第四系数中的任意一个或其组合，处理所述第一信号和/或第二信号以获取所述语音增强后的输出语音信号。关于基于第四系数进行语音增强的更多内容可以参见图13及其描述，此处不再赘述。

在一些实施例中，上述语音增强方法500可以在预处理(例如，分帧、加窗平滑、FFT变换等)后获得的第一信号和/或第二信号上实施。也就是说，所述第一输出语音信号可以是单帧语音信号。由此，语音增强方法500还可以包括后处理过程。示例性的后处理可以包括逆FFT变换、帧拼接等。经过所述后处理过程，处理设备110可以获得连续的输出语音信号。

图8是根据本说明书一些实施例所示的确定第一系数方法的示例性流程图。在一些实施例中，方法800可以由处理设备110、处理引擎112、处理器220执行。例如，方法800可以以程序或指令的形式存储在存储设备(例如，存储设备140或处理设备110的存储单元)中，当处理设备110、处理引擎112、处理器220或图4所示的模块执行程序或指令时，可以实现方法800。在一些实施例中，方法500中所述的操作520可以通过方法800实施。在一些实施例中，方法800可以利用以下未描述的一个或以上附加操作/步骤，和/或不通过以下所讨论的一个或以上操作/步骤完成。另外，如图8所示的操作/步骤的顺序并非限制性的。

在一些实施例中，处理设备110可以基于自适应零点形成(Adaptive Null-Forming,ANF)算法确定所述第一系数。所述ANF算法可以包括两个差分波束形成器以及自适应滤波器。所述两个差分波束形成器可以对所述第一信号和所述第二信号进行差分处理，形成指向第一方向的信号和指向第二方向的信号。所述自适应滤波器可以对指向第一方向的信号和指向第二方向的信号进行自适应滤波，获得与有效信号对应的第三信号。如图8所示，方法800可以包括：

步骤810，处理设备110可以基于所述目标语音位置、所述第一位置和所述第二位置，对所述第一信号和所述第二信号进行差分运算，获取指向第一方向的信号和指向第二方向的信号。

在一些实施例中，处理设备110可以根据差分麦克风原理，基于目标语音位置、第一位置和第二位置对第一信号和第二信号进行时延处理。例如，如图6所述，前麦克风A与后麦克风B之间的距离为d，目标声源具有入射角θ，则目标声源在前麦克风A与后麦克风B之间的传播时间可以表示为：

τ＝dcosθ/c， (1)

其中，c为声音传播速度。所述传播时间τ可以作为第一信号和第二信号间的时延。当θ＝0°时，τ＝d/c。根据差分麦克风原理可以获取指向第一方向的信号和指向第二方向的信号：

x_s(t)＝sig1(t)-sig2(t-τ)， (2)

x_n(t)＝sig2(t)-sig1(t-τ)， (3)

其中，t表示当前帧的每一个时间点，sig1表示第一信号，sig2表示第二信号。

根据上述公式(2)和(3)，通过时延τ分别对第一信号sig1和第二信号sig2进行时延后做差分，可以获取指向第一方向的信号x_s和指向第二方向的信号x_n。所述指向第一方向的信号x_s可以对应第一指向麦克风，所述第一指向麦克风的响应为心形图，其极点指向目标声源方向。所述指向第二方向的信号x_n可以对应第二指向麦克风，所述第二指向麦克风的响应为心形图，其零点指向目标声源方向。

在一些实施例中，所述指向第一方向的信号x_s和所述指向第二方向的信号x_n可以含有不同比例的有效信号。例如，所述指向第一方向的信号x_s中可以含有较大比例的有效信号(和/或较小比例的噪声信号)。所述指向第二方向的信号x_n中可以含有较小比例的有效信号(和/或较大比例的噪声信号)。

步骤820，处理设备110可以对所述指向第一方向的信号和所述指向第二方向的信号进行自适应差分运算，确定第四信号。

在一些实施例中，处理设备110可以基于维纳滤波算法，通过所述自适应滤波器对指向第一方向的信号和指向第二方向的信号进行滤波。所述自适应滤波器可以是最小均方差(Least Mean Square,LMS)滤波器。在进行滤波时，指向第一方向的信号x_s可以作为LMS滤波器的期望信号，指向第二方向的信号x_n可以作为LMS滤波器的参考噪声。基于所述期望信号和参考噪声，处理设备110可以通过LMS滤波器对所述指向第一方向的信号x_s和所述指向第二方向的信号x_n进行自适应滤波(即自适应差分运算)，确定第四信号。所述第四信号可以是滤除噪声之后的信号。在一些实施例中，自适应差分运算的示例性过程可以如下述公式所示：

y＝x_s-wx_n， (4)

其中，y表示第四信号(即LMS滤波器的输出信号)，w表示自适应差分运算的自适应参数(即LMS滤波器的系数)。

在一些实施例中，在所述自适应差分运算过程中，处理设备110可以基于所述第四信号y、所述指向第一方向的信号x_s和所述指向第二方向的信号x_n，更新所述自适应差分运算的自适应参数w。例如，基于每一帧第一信号和第二信号，处理设备110可以获取指向第一方向的信号x_s和指向第二方向的信号x_n。进一步地，处理设备110可以通过梯度下降法对自适应参数w进行更新，使得自适应差分运算的损失函数(例如，均方差损失函数)逐渐收敛。

步骤830，处理设备110可以对第四信号中的低频成分进行增强，获取第三信号。

在一些实施例中，所述差分波束形成器可以具有高通滤波的特性。在使用所述差分波束形成器对所述第一信号和所述第二信号进行差分处理时，可能会减弱所述第一信号和所述第二信号中的低频成分。相应地，通过自适应差分运算后获取的第四信号y中的低频成分被减弱。在一些实施例中，处理设备110可以通过补偿滤波器增强第四信号y中的低频成分。仅作为示例，所述补偿滤波器可以如下述公式所示：

其中，W_EQ表示补偿滤波器，ω表示第四信号y的频率，ω_c表示高通滤波的截止频率。在一些实施例中，示例性的ω_c取值可以为：

ω_c＝0.5πc/d， (6)

其中，c表示声音传播速度，d表示双麦克风间距。

在一些实施例中，处理设备110可以基于所述补偿滤波器W_EQ对所述第四信号y进行滤波，获取第三信号。例如，第三信号可以是第四信号y与补偿滤波器W_EQ的乘积。

步骤840，处理设备110可以基于所述第三信号，确定所述第一系数。

在一些实施例中，处理设备110可以确定第三信号与第一信号或第二信号的比值，并根据所述比值确定第一系数。

需要注意的是，以上对于方法800的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该方法的原理后，可以在不背离这一原理的情况下，对各个步骤进行任意组合，或者，可以增加或删减任意步骤。

仅仅为了说明，上述实施例中方法800的操作是在时域上对第一信号和第二信号进行处理。应当理解，方法800中的一个或以上的操作也可以在频域上进行。例如，在时域上对第一信号和第二信号进行的时延处理也可以是在频域上对第一信号和第二信号进行等效的相移。在一些实施例中，步骤830不是必须的，即步骤820中获得的第四信号可以不经过低频增强而直接作为第三信号使用。

图9是根据本说明书一些实施例所示的确定第一系数方法的示例性流程图。在一些实施例中，方法900可以由处理设备110、处理引擎112、处理器220执行。例如，方法900可以以程序或指令的形式存储在存储设备(例如，存储设备140或处理设备110的存储单元)中，当处理设备110、处理引擎112、处理器220或图4所示的模块执行程序或指令时，可以实现方法900。在一些实施例中，方法500中所述的操作520可以通过方法900实施。在一些实施例中，方法900可以利用以下未描述的一个或以上附加操作/步骤，和/或不通过以下所讨论的一个或以上操作/步骤完成。另外，如图9所示的操作/步骤的顺序并非限制性的。如图9所示，方法900可以包括：

步骤910，处理设备110可以基于目标语音位置、第一位置和第二位置，对第一信号和第二信号进行差分运算，获取指向第一方向的信号和指向第二方向的信号。所述指向第一方向的信号和所述指向第二方向的信号含有不同比例的有效信号。

在一些实施例中，可以通过执行图8所描述的步骤810来执行步骤910，此处不再赘述。

步骤920，处理设备110可以基于所述指向第一方向的信号和所述指向第二方向的信号，确定所述目标语音的估计信噪比。

在一些实施例中，所述指向第一方向的信号中可以含有较大比例的有效信号(和/或较小比例的噪声信号)。所述指向第二方向的信号中可以含有较小比例的有效信号(和/或较大比例的噪声信号)。所述估计信噪比可以表示为指向第一方向的信号与所述指向第二方向的信号之间的比值(即x_s/x_n)。在一些实施例中，不同的估计信噪比可以对应不同的合成声源入射角θ。例如，较大的估计信噪比可以对应较小的合成声源入射角θ。在一些实施例中，合成声源入射角θ可以反映噪声信号对有效信号的影响。例如，当噪声信号对有效信号影响较大时(例如，噪声源方向与目标声源方向之间的角度差较大)，合成声源入射角θ可以具有较大的值；当噪声信号对有效信号影响较小时(例如，噪声源方向与目标声源方向之间的角度差较小)，合成声源入射角θ可以具有较小的值。由此，所述估计信噪比可以反映合成声源的方向，并进一步反映噪声信号对有效信号的影响。

步骤930，处理设备110可以基于所述估计信噪比，确定所述第一系数。

在一些实施例中，处理设备110可以基于估计信噪比与第一系数之间的映射关系确定所述第一系数。所述映射关系可以是多种形式，例如，映射关系数据库或关系函数。

在一些实施例中，不同的噪声源方向可以对应不同的合成声源入射角θ，相应地可以对应不同的估计信噪比。也就是说，估计信噪比可以与噪声源方向有关(也即与噪声信号对有效信号的影响程度有关)。由此，对于不同的估计信噪比，可以确定不同的第一系数。例如，当估计信噪比较小时，对应的合成声源入射角θ可以具有较大的值，表示噪声信号对有效信号的影响较大。相应地，与有效信号对应的第三信号可能含有较大比例的噪声信号。由此，可以通过确定第一系数的值以减弱或去除所述第三信号。处理设备110可以根据该第一系数处理与有效信号对应的第三信号。例如，第一系数可以表示与有效信号对应的第三信号在语音增强过程中的权重。仅仅作为示例，当第一系数为“1”时，表示第三信号可以被完全保留而作为增强后的语音信号中的一部分；当第一系数为“0”时，表示从增强后的语音信号中完全滤除第三信号。在一些实施例中，可以建立估计信噪比与第一系数之间的映射关系数据库。处理设备110可以基于估计信噪比检索所述数据库，从而确定所述第一系数。

在一些实施例中，处理设备110还可以基于估计信噪比与第一系数之间的关系函数确定所述第一系数。例如，所述关系函数可以如下述公式所示：

其中，

表示所述估计信噪比。

需要注意的是，以上对于方法900的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该方法的原理后，可以在不背离这一原理的情况下，对各个步骤进行任意组合，或者，可以增加或删减任意步骤。

图10是根据本说明书一些实施例所示的确定第二系数方法的示例性流程图。在一些实施例中，方法1000可以由处理设备110、处理引擎112、处理器220执行。例如，方法1000可以以程序或指令的形式存储在存储设备(例如，存储设备140或处理设备110的存储单元)中，当处理设备110、处理引擎112、处理器220或图4所示的模块执行程序或指令时，可以实现方法1000。在一些实施例中，方法500中所述的操作530及540可以通过方法1000实施。在一些实施例中，方法1000可以利用以下未描述的一个或以上附加操作/步骤，和/或不通过以下所讨论的一个或以上操作/步骤完成。另外，如图10所示的操作/步骤的顺序并非限制性的。如图10所示，方法1000可以包括：

步骤1010，处理设备110可以基于每个声源方向、第一位置和第二位置，对第一信号和第二信号进行差分运算，确定与每个声源方向有关的参数。

在一些实施例中，所述多个声源方向可以包括预设的声源方向。所述声源方向可以根据实际需求选择和/或调整，此处不做限制。例如，所述多个声源可以具有预设的入射角θ＝(θ₁,θ₂,…,θ_n)(例如，0°、30°、60°、90°、120°、150°、180°等)。处理设备110可以基于每个声源方向、所述第一位置和所述第二位置，对所述第一信号和所述第二信号进行差分运算。例如，所述多个声源方向中的每个声源方向可以对应一个时延，处理设备110可以构建与所述多个声源方向对应的时延组合τ＝(τ₁,τ₂,…,τ_n)。基于所述时延组合，处理设备110可以对所述第一信号和第二信号进行差分运算，构建多个指向麦克风。所述多个指向麦克风的极点可以指向所述多个声源方向。所述多个指向麦克风中的每个麦克风的响应为心形图。为便于描述，所述多个声源方向对应的心形图可以称为模拟心形图。每个模拟心形图的极点可以指向对应的声源方向。

在一些实施例中，处理设备110可以基于所述差分运算计算与所述声源方向有关的参数。所述参数可以包括似然函数。例如，对于当前帧的每一个信号点，处理设备110可以计算出与所述多个声源方向中的每个声源方向对应的似然函数。例如，所述似然函数可以如下述公式所示：

LH_i(f,t)＝-|exp(-i2πfθ_i)sig1(f,t)-sig2(f,t)|²， (8)

其中，LH_i(f,t)表示在t时刻f频率对应的似然函数，是在声源方向为时第一信号的时频域表sig1(f,t)、sig2(f,t)分别为声源方向为θ_i时第一信号和第二信号的时频域表达，exp(-i2πfθ_i)sig1(f,t)中的-2πfθ_i表示在声源方向为θ_i时声源传播至第二位置相对于第一位置的相位差。

在一些实施例中，所述似然函数可以对应从所述声源方向发出声音以形成所述第一信号和所述第二信号的概率。仅作为示例，声源方向为θ＝30°时的似然函数值为0.8，可以表示从声源方向为θ＝30°发出声音以形成所述第一信号和所述第二信号的概率为80％。在一些实施例中，所述对应多个声源方向的似然函数的响应可以为心形图。为便于描述，所述似然函数对应的心形图可以称为合成心形图(或实际心形图)。

步骤1020，处理设备110可以基于所述多个参数，确定合成声源方向。

在一些实施例中，为了确定合成声源的方向，处理设备110可以确定所述多个参数中数值最大的参数。例如，处理设备110可以计算出与所述多个声源方向θ＝(θ₁,θ₂,…,θ_n)中的每个声源方向对应的似然函数LH₁(f,t),LH₂(f,t),…,LH_n(f,t)。似然函数LH_i(f,t)可以对应从声源方向θ_i发出声音以形成所述第一信号和所述第二信号的概率。所述数值最大的似然函数可以表示从与其对应的声源方向发出声音以形成所述第一信号和所述第二信号的概率最大。由此，处理设备110可以确定所述数值最大的似然函数对应的声源方向为合成声源的方向。例如，如果θ_i＝30°时的似然函数值最大，处理设备110可以确定合成声源的方向为30°。

在一些实施例中，处理设备110可以基于所述多个指向麦克风确定合成声源的方向。根据上述实施例，所述多个指向麦克风可以分别与预设的声源方向θ＝(θ₁,θ₂,…,θ_n)对应。每个指向麦克风的响应为模拟心形图。所述模拟心形图的极点指向对应的声源方向。进一步地，所述对应多个声源方向的似然函数的响应也可以是心形图(称为合成心形图)。所述合成心形图的极点指向合成声源的方向。处理设备110可以将所述合成心形图与上述多个模拟心形图比较，确定与实际心形图的极点指向最接近的模拟心形图。所述模拟心形图对应的声源方向可以确定为合成声源的方向。

步骤1030，处理设备110可以基于所述合成声源方向和所述目标语音位置，确定所述第二系数。

在一些实施例中，为了确定所述第二系数，处理设备110可以判断所述目标语音位置是否位于合成声源方向。例如，所述目标语音位置可以位于双麦克风的延长线上。也就是说，目标语音位置对应的声源方向为θ＝0°。处理设备110可以判断所述合成声源方向是否为0°，如果合成声源方向为0°，那么可以判断所述目标语音位置位于合成声源方向。在一些实施例中，处理设备110可以判断所述数值最大的似然函数是否位于目标声源占主导的集合。如果所述数值最大的似然函数位于目标声源占主导的集合，处理设备110可以确定所述目标语音位置位于合成声源方向。在一些实施例中，所述目标声源占主导的集合可以如下述公式所示：

其中，LH₀(f,t)表示目标语音位置位于合成声源方向时的似然函数值。基于集合

处理设备110可以确定时频点(f,t)，使得该时频点(f,t)对应的似然函数在θ＝0°时取得最大值maxLH_i(f,t)。此时，该时频点对应的信号(例如，第一信号或第三信号)可以为从目标声源方向发出的信号。

需要注意的是，以上公式(9)所示的目标声源占主导的集合

仅仅作为示例。在公式(9)中，目标语音位置位于双麦克风连线的延长线上(即θ＝0°)，因此基于上述方法确定的时频点(f,t)在θ＝0°时取得最大值。可选地或附加地，目标语音位置可以不位于双麦克风连线的延长线上(即θ≠0°)。例如，目标语音位置与双麦克风连线延长线的夹角为30度。此时公式(9)中的LH₀(f,t)就可以是θ＝30°时的似然函数值。也就是说，此时根据目标声源占主导的集合求出的时频点(f,t)应当使得似然函数在θ＝30°时取得最大值。

在一些实施例中，响应于所述目标语音位置位于所述合成声源方向，处理设备110可以将所述第二系数设为第一数值(例如，1)。响应于所述目标语音位置不位于所述合成声源方向，处理设备110可以将所述第二系数设为第二数值(例如，0)。在一些实施例中，处理设备110可以基于所述第二系数处理对应的第一信号或经过ANF滤波后获取的第三信号。例如，以第一信号为例，所述第二系数可以作为第一信号的权重。例如，当第二系数为1时，可以表示保留所述第一信号。相反，当目标语音位置不位于合成声源方向时，所述合成声源方向对应的第一信号可以认为是噪声信号。处理设备110可以将第二系数为0。由此，处理设备110可以基于所述第二系数滤除或减弱目标语音位置不位于合成声源方向时对应的噪声信号。

在一些实施例中，所述第二系数可以组成用于过滤输入信号(例如，第一信号或第三信号)的掩蔽矩阵。例如，所述掩蔽矩阵可以如下述公式所示：

上述掩蔽矩阵M为二值化矩阵，可以直接去除被判断为噪声的输入信号。因此，基于掩蔽矩阵M处理的语音信号可能会造成频谱泄漏、语音不连续等问题。在一些实施例中，处理设备110可以基于平滑因子，对所述第二系数进行平滑。例如，基于平滑因子，处理设备110可以在时域上对所述第二系数进行平滑。时域平滑过程可以如下述公式所示：

其中，α表示平滑因子，M(f,t-1)表示对应前一帧的掩蔽矩阵，M(f,t)表示对应当前帧的掩蔽矩阵。平滑因子α可以用于对前一帧的掩蔽矩阵和当前帧的掩蔽矩阵进行加权处理，从而得到对应当前帧的平滑的掩蔽矩阵

在一些实施例中，处理设备110还可以在频域上对所述第二系数进行平滑。例如，处理设备110可以使用滑动汉明窗对所述第二系数进行平滑。

在一些实施例中，处理设备110可以基于所述目标语音位置和所述合成声源方向之间的角度，通过回归函数确定所述第二系数。例如，对于每一个时频点，处理设备110可以计算出与所述多个声源方向θ＝(θ₁,θ₂,…,θ_n)中的每个声源方向对应的似然函数LH₁(f,t),LH₂(f,t),…,LH_n(f,t)。并确定数值最大的似然函数对应的声源方向为合成声源的方向。例如，如果θ_i＝30°时的似然函数值最大，处理设备110可以确定合成声源的方向为30°。进一步地，处理设备110可以基于所述目标声源方向和所述合成声源方向之间的角度，通过回归函数确定所述第二系数。例如，处理设备110可以构建所述角度与第二系数间的回归函数。在一些实施例中，所述回归函数可以包括平滑的回归函数，例如，线性回归函数。仅作为示例，所述回归函数的值可以随着目标声源方向与合成声源方向之间的角度的增大而减小。这样，当以第二系数作为权重处理输入信号时，可以减弱或去除目标声源方向与合成声源方向之间的角度的较大时的输入信号，从而达到去除噪声的目的。

需要注意的是，以上对于方法1000的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该方法的原理后，可以在不背离这一原理的情况下，对各个步骤进行任意组合，或者，可以增加或删减任意步骤。

根据本说明书的一些实施例，处理设备110可以通过双麦克风获取目标语音信号，并基于双麦滤波算法对目标语音信号进行滤波。例如，当噪声信号与有效信号之间的角度差较大(即噪声源方向与目标声源方向之间的角度差较大)时，处理设备110可以基于第一系数进行滤波，去除所述噪声信号。当噪声信号与有效信号之间的角度差较小时，处理设备110可以基于第二系数进行滤波。如此，处理设备110可以基本滤除目标语音信号中的噪声信号。在一些实施例中，经过上述双麦滤波过程的获取的第一输出语音信号可能会包括遗留噪声。例如，在部分频率子带(例如，中高频子带)上，第一输出语音信号可能包括幅度谱上连续的噪声。因此，在一些实施例中，处理设备110还可以基于单麦滤波算法对第一输出语音信号进行后置滤波。

图11是根据本说明书一些实施例所示的单麦滤波方法的示例性流程图。在一些实施例中，方法1100可以由处理设备110、处理引擎112、处理器220执行。例如，方法1100可以以程序或指令的形式存储在存储设备(例如，存储设备140或处理设备110的存储单元)中，当处理设备110、处理引擎112、处理器220或图4所示的模块执行程序或指令时，可以实现方法1100。在一些实施例中，方法1100可以利用以下未描述的一个或以上附加操作/步骤，和/或不通过以下所讨论的一个或以上操作/步骤完成。另外，如图11所示的操作/步骤的顺序并非限制性的。如图11所示，方法1100可以包括：

步骤1110，处理设备110(例如，处理模块420)可以确定第一输出语音信号中至少一个目标子带信号。

在一些实施例中，处理设备110可以基于第一输出语音信号中每个子带信号的信噪比确定所述至少一个目标子带信号。在一些实施例中，处理设备110可以基于第一输出语音信号，获取多个子带信号。例如，处理设备110可以基于信号频段对第一输出语音信号进行子带划分，获取多个子带信号。仅作为示例，处理设备110可以按照低频、中频或高频的频段类别对第一输出语音信号进行子带划分，或者也可以按照特定的频带宽度(例如，每2kHz作为一个频带)对第一输出语音信号进行子带的划分。再例如，处理设备110可以基于第一输出语音信号的信号频点进行子带划分。信号频点可以指信号的频率值中小数点之后的数值，例如信号的频率值为72.810，则该信号的信号频点为810。基于信号频点进行子带划分可以是按照特定的信号频点宽度对信号进行子带的划分，例如，信号频点810～830作为一个子带，信号频点600～620作为一个子带。在一些实施例中，处理设备110可以通过滤波的方式获取多个子带信号，也可以通过其它的算法或器件进行子带划分，获取多个子带信号，此处不做限制。

进一步地，处理设备110可以计算每一个子带信号的信噪比。信噪比(signal-noise ratio,SNR)可以指语音信号能量与噪声信号能量的比值。信号能量可以是信号功率、基于信号功率得到的其它能量数据等。在一些实施例中，信噪比越大，说明语音信号中包含的噪声越小。在一些实施例中，子带信号的信噪比可以是子带信号中纯净的语音信号(即有效信号)的能量与噪声信号能量的比值，也可以是含有噪声的子带信号的能量与噪声信号能量的比值。在一些实施例中，处理设备110可以通过信噪比估计算法计算每一个子带信号的信噪比。例如，对于每一个子带信号，处理设备110可以基于噪声估计算法计算得到子带信号中的噪声信号值。示例性的噪声估计算法可以包括最小值跟踪算法、时间递归平均算法等或其组合。进一步地，处理设备110可以基于原始子带信号和噪声信号值计算得到信噪比。在一些实施例中，处理设备110可以采用训练得到的信噪比估计模型计算每一个子带信号的信噪比。示例性的信噪比估计模型可以包括但不限于多层感知机(Multi-LayerPerception,MLP)、决策树(Decision Tree,DT)、深度神经网络(Deep Neural Network,DNN)、支持向量机(Support Vector Machine,SVM)、K最近邻算法(K-Nearest Neighbor,KNN)等任何可以进行特征提取和/或分类的算法或者模型。在一些实施例中，信噪比估计模型可以通过采用训练样本训练初始模型得到。训练样本可以包括语音信号样本(例如，至少一个历史语音信号，每个历史语音信号中含有噪声信号)，以及语音信号样本的标签值(例如，历史语音信号v1的信噪比为0.5，历史语音信号v2的信噪比为0.6)。利用模型处理语音信号样本，得到预测的信噪比。基于预测的信噪比与对应训练样本的标签值构造损失函数，基于损失函数调整模型参数，以减小预测的目标信噪比与标签值之间的差异。例如，可以基于梯度下降法等进行模型参数更新或调整。如此进行多轮迭代训练，当训练的模型满足预设条件时，训练结束，得到训练后的信噪比估计模型。其中，预设条件可以是损失函数结果收敛或小于预设阈值等。

进一步地，处理设备110可以基于每一个所述子带信号的信噪比，确定所述目标子带信号。在一些实施例中，处理设备110可以基于信噪比阈值确定所述目标子带信号。例如，对于每一个子带信号，处理设备110可以确定所述子带信号的信噪比是否小于信噪比阈值。响应于所述子带信号的信噪比小于信噪比阈值，处理设备110可以确定所述子带信号为目标子带信号。

在一些实施例中，处理设备110还可以基于预设子带范围确定所述至少一个目标子带信号。例如，所述预设子带范围可以是预设频率范围。所述预设频率范围可以基于经验值确定。所述经验值可以是在语音分析处理过程得到的经验值。仅作为示例，在语音分析处理过程发现3000-4000Hz的频率范围内的语音信号通常含有较大比例的噪声，相应地，所述预设频率范围可以至少包括3000-4000Hz。

步骤1120，处理设备110(例如，生成模块430)可以基于单麦滤波算法，处理所述至少一个目标子带信号，获取第二输出语音信号。

在一些实施例中，处理设备110可以基于单麦滤波算法处理所述至少一个目标子带信号，从而滤除所述至少一个目标子带信号中的噪声，获取降噪后的第二输出语音信号。示例性的单麦滤波算法可以包括谱减法、维纳滤波算法、最小值控制的递归平均算法、语音生成模型算法等或其组合。

根据上述实施例，处理设备110可以根据单麦滤波算法进一步处理通过双麦滤波算法获取的第一输出语音信号。例如，处理设备110可以根据单麦滤波算法对中第一输出语音信号中的部分子带信号(例如，特定频率的信号)进行滤波，从而可以减弱或滤除第一输出语音信号中的噪声信号，实现对双麦滤波算法的修正和/或补充。

需要注意的是，以上对于方法1100的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该方法的原理后，可以在不背离这一原理的情况下，对各个步骤进行任意组合，或者，可以增加或删减任意步骤。例如，步骤1110可以省略。处理设备110可以不仅仅是针对目标子带信号进行滤波处理，还可以直接对第一输出语音信号整体进行滤波处理。再例如，处理设备110可以基于噪声自动检测算法自动检测出第一输出语音信号中的噪声信号，并通过单麦滤波算法对检测出的噪声信号进行滤波处理。

图12是根据本说明书一些实施例所示的单麦滤波方法的示例性流程图。在一些实施例中，方法1200可以由处理设备110、处理引擎112、处理器220执行。例如，方法1200可以以程序或指令的形式存储在存储设备(例如，存储设备140或处理设备110的存储单元)中，当处理设备110、处理引擎112、处理器220或图4所示的模块执行程序或指令时，可以实现方法1200。在一些实施例中，方法1200可以利用以下未描述的一个或以上附加操作/步骤，和/或不通过以下所讨论的一个或以上操作/步骤完成。另外，如图12所示的操作/步骤的顺序并非限制性的。如图12所示，方法1200可以包括：

步骤1210，处理设备110(例如，处理模块420)可以基于单麦滤波算法处理所述第一信号和/或所述第二信号，确定第三系数。

在一些实施例中，处理设备110可以基于第一信号和第二信号中的任意一个确定第三系数。例如，处理设备110可以基于第一信号确定第三系数，或者可以基于第二信号确定第三系数。在一些实施例中，处理设备110可以基于第一信号和第二信号确定第三系数。例如，处理设备110可以基于第一信号确定第三系数额的第一数值，基于第二信号确定第三系数额的第二数值，然后基于第一数值和第二数值确定所述第三系数(例如，求平均值、加权求和等)。

以第一系数为例，在一些实施例中，处理设备110可以基于单麦滤波算法处理所述第一信号。示例性的单麦滤波算法可以包括谱减法、维纳滤波算法、最小值控制的递归平均算法、语音生成模型算法等或其组合。仅作为示例，处理设备110可以基于单麦滤波算法得到第一信号中的噪声信号和有效信号，并基于所述噪声信号、有效信号以及第一信号中的至少两个确定与第一信号对应的信噪比。所述与第一信号对应的信噪比可以包括先验信噪比、后验信噪比等。所述先验信噪比可以是有效信号与噪声信号的能量比值。所述后验信噪比可以是有效信号与第一信号的能量比值。进一步地，处理设备110可以基于与第一信号对应的信噪比确定所述第三系数。例如，处理设备110可以基于所述先验信噪比和/或后验信噪比确定所述单麦滤波算法对应的增益系数，并基于所述增益系数确定所述第三系数。例如，处理设备110可以直接将所述增益系数作为第三系数。再例如，处理设备110可以确定增益系数与第三系数之间的映射关系，并基于所述映射关系确定第三系数。这里的增益系数可以指单麦滤波算法中的传递函数。所述传递函数可以对带有噪声信号的语音信号进行滤波，获取有效信号。例如，传递函数可以是矩阵的形式，通过将传递函数与带有噪声信号的语音信号相乘，可以滤除所述语音信号中的噪声信号。相应地，所述第三系数可以用于去除语音信号中的噪声。

可选地或附加地，处理设备110还可以基于逻辑回归算法(例如，sigmoid函数)，通过平滑因子对所述先验信噪比和后验信噪比进行加权组合，获取平滑信噪比。并基于平滑信噪比确定所述单麦滤波算法对应的增益系数作为第三系数。由此，所述第三系数可以具有较好的平滑性，从而可以避免在使用单麦滤波算法进行滤波时产生较强的音乐噪声。

步骤1220，处理设备110(例如，生成模块430)可以基于所述第三系数，处理所述第一输出语音信号，获取第三输出语音信号。

在一些实施例中，处理设备110可以将所述第三系数与第一输出语音信号相乘，获取所述第三输出语音信号。例如，根据步骤1210所述，第三系数可以是基于单麦滤波算法获取的增益系数。通过将所述增益系数与第一输出语音信号相乘，可以滤除第一输出语音信号中的噪声信号。

需要注意的是，以上对于方法1200的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该方法的原理后，可以在不背离这一原理的情况下，对各个步骤进行任意组合，或者，可以增加或删减任意步骤。

图13是根据本说明书一些实施例所示的语音增强方法的示例性流程图。在一些实施例中，方法1300可以由处理设备110、处理引擎112、处理器220执行。例如，方法1300可以以程序或指令的形式存储在存储设备(例如，存储设备140或处理设备110的存储单元)中，当处理设备110、处理引擎112、处理器220或图4所示的模块执行程序或指令时，可以实现方法1300。在一些实施例中，方法1300可以利用以下未描述的一个或以上附加操作/步骤，和/或不通过以下所讨论的一个或以上操作/步骤完成。另外，如图13所示的操作/步骤的顺序并非限制性的。如图13所示，方法1300可以包括：

步骤1310，处理设备110可以获取目标语音的第一信号和第二信号。

步骤1320，处理设备110可以基于目标语音位置、所述第一位置和所述第二位置，处理所述第一信号和所述第二信号以确定第一系数。

步骤1330，处理设备110可以基于所述第一信号和所述第二信号，确定与多个声源方向有关的多个参数。

步骤1340，处理设备110可以基于所述多个参数和所述目标语音位置，确定第二系数。

在一些实施例中，可以通过执行图5所描述的步骤510-540来执行步骤1310-1340，此处不再赘述。

步骤1350，处理设备110(例如，处理模块420)可以基于所述第一信号和所述第二信号的能量差，确定第四系数。

在一些实施例中，为了确定第四系数，处理设备110可以基于第一信号和第二信号中的无声区间，获取噪声功率谱密度。所述无声区间可以是不存在有效信号(即目标声源未发出语音)的语音信号区间。在无声区间内，由于不存在目标声源的语音，此时两个麦克风获取的第一信号和第二信号中仅含有噪声成分。在一些实施例中，处理设备110可以基于语音活动检测(Voice Activity Detection,VAD)算法确定所述第一信号和第二信号中的无声区间。在一些实施例中，处理设备110可以分别确定第一信号和第二信号中的一个或多个语音区间作为无声区间。例如，对于第一信号和第二信号中的每一个，处理设备110可以直接将该信号开始的一段(例如，200ms，300ms等)语音区间作为无声区间。进一步地，处理设备110可以基于所述无声区间获取噪声功率密度谱。在一些实施例中，当噪声信号源与双麦克风距离较远时，可以认为双麦克风所接收的噪声信号相似或相同。因此，处理设备110可以基于第一信号或第二信号中的任一个对应的无声区间获取噪声功率谱密度。在一些实施例中，处理设备110可以基于周期图算法获取所述噪声功率谱密度。可选地或附加地，处理设备110可以基于FFT变换将第一信号和/或第二信号变换到频域，从而可以在频域上基于周期图算法获取所述噪声功率谱密度。

进一步地，处理设备110可以基于所述第一信号的第一功率谱密度、所述第二信号的第二功率谱密度和所述噪声功率谱密度，获取所述能量差。在一些实施例中，处理设备110可以基于周期图算法确定所述第一信号的第一功率谱密度以及所述第二信号的第二功率谱密度。在一些实施例中，处理设备110可以基于能量差(Power Level Difference,PLD)算法获取所述能量差。在所述PLD算法中，可以假设双麦克风距离较远，因而第一信号中的有效信号与第二信号中的有效信号能量差较大，且第一信号与第二信号中的噪声信号相同或相似。由此，第一信号与第二信号的能量差可以表示为第一信号中的有效信号相关的函数。

进一步地，处理设备110可以基于所述能量差和所述噪声功率谱密度，确定所述第四系数。在一些实施例中，处理设备110可以基于PLD算法确定增益系数，并将所述增益系数确定为第四系数。

步骤1360，处理设备110(例如，生成模块430)可以基于所述第一系数、所述第二系数和所述第四系数，处理所述第一信号和/或第二信号以获取所述目标语音对应的语音增强后的第四输出语音信号。

在一些实施例中，处理设备110可以基于第四系数对第一信号和/或第二信号进行增益补偿，获取估计的有效信号。例如，所述估计的有效信号可以是第四系数与第一信号和/或第二信号的乘积。在一些实施例中，处理设备110可以基于所述第一系数、所述第二系数和所述第四系数，对基于所述第一信号和/或第二信号获取的输出信号(例如，第三信号、估计的有效信号)进行加权处理。例如，处理设备110可以基于第一系数、第二系数和第四系数分别对第三信号、第一信号和估计的有效信号进行加权处理，并根据加权处理后的信号确定第四输出语音信号。例如，第四输出语音信号可以是加权后的信号的平均值。再例如，第四输出语音信号可以是加权后的信号中较大的值。

在一些实施例中，处理设备110可以基于第一系数和第二系数，处理第一信号和/或第二信号以获取所述目标语音对应的语音增强后的第一输出语音信号，再基于第四系数对第一输出语音信号进行处理，以第四输出语音信号。

需要注意的是，以上对于方法1300的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该方法的原理后，可以在不背离这一原理的情况下，对各个步骤进行任意组合，或者，可以增加或删减任意步骤。在一些实施例中，处理设备110还可以基于所述第一信号和所述第二信号的功率差确定所述第四系数。在一些实施例中，处理设备110还可以基于所述第一信号和所述第二信号的幅度差确定所述第四系数。

本说明书实施例可能带来的有益效果包括但不限于：(1)基于ANF算法处理目标语音信号，对目标语音信号的损害比较小，且当有效信号和噪声信号的角度差较大时，可以对噪声信号进行有效的滤波；(2)基于分布概率算法处理目标语音信号，可以在有效信号和噪声信号的角度差较小时，对目标声源附近的噪声信号进行有效的滤波；(3)采用双麦滤波与单麦滤波相结合的方式处理目标语音信号，可以有效滤除双麦滤波后的残留噪声。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述发明披露仅仅作为示例，而并不构成对本说明书的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。

同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合或对他们的任何新的和有用的改进。相应地，本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

此外，除非权利要求中明确说明，本说明书处理元素和序列的顺序、数字字母的使用或其他名称的使用，并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本说明书披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本说明书实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”等来修饰。除非另外说明，“大约”、“近似”或“大体上”表明数字允许有±20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值数据均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值数据应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和数据为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

Claims

1.一种语音增强方法，其特征在于，所述方法包括：

获取目标语音的第一信号和第二信号，所述第一信号为基于第一位置采集的所述目标语音的信号，所述第二信号为基于第二位置采集的所述目标语音的信号；

基于目标语音位置、所述第一位置和所述第二位置，处理所述第一信号和所述第二信号以确定第一系数；

基于所述第一信号和所述第二信号，确定与多个声源方向有关的多个参数，每个参数对应从一个声源方向发出声音以形成所述第一信号和所述第二信号的概率；

基于所述多个参数和所述目标语音位置，确定第二系数；以及

基于所述第一系数和所述第二系数，处理所述第一信号和/或第二信号以获取所述目标语音对应的语音增强后的第一输出语音信号。

2.如权利要求1所述的方法，所述基于目标语音位置、所述第一位置和所述第二位置，处理所述第一信号和所述第二信号以确定第一系数，包括：

基于所述目标语音位置、所述第一位置和所述第二位置，对所述第一信号和所述第二信号进行差分运算，获取指向第一方向的信号和指向第二方向的信号，所述指向第一方向的信号和所述指向第二方向的信号含有不同比例的有效信号；

基于所述指向第一方向的信号和所述指向第二方向的信号，确定与所述有效信号对应的第三信号；以及

基于所述第三信号，确定所述第一系数。

3.如权利要求1所述的方法，所述基于目标语音位置、所述第一位置和所述第二位置，处理所述第一信号和所述第二信号以确定第一系数，包括：

基于所述指向第一方向的信号和所述指向第二方向的信号，确定所述目标语音的估计信噪比；以及

基于所述估计信噪比，确定所述第一系数。

4.如权利要求1所述的方法，所述基于所述第一信号和所述第二信号，确定与多个声源方向有关的多个参数，包括：

基于每个声源方向、所述第一位置和所述第二位置，对所述第一信号和所述第二信号进行差分运算，确定与每个声源方向有关的参数。

5.如权利要求1所述的方法，其特征在于，所述基于所述多个参数和所述目标语音位置，确定第二系数，包括：

基于所述多个参数，确定合成声源方向；以及

基于所述合成声源方向和所述目标语音位置，确定所述第二系数。

6.如权利要求1所述方法，其特征在于，所述方法还包括对所述第一信号和所述第二信号执行以下操作中的至少一个：

对所述第一信号和所述第二信号进行分帧；

对所述第一信号和所述第二信号进行加窗平滑；以及

将所述第一信号和所述第二信号转换到频域。

7.如权利要求1所述的方法，其特征在于，所述方法进一步包括：

确定所述第一输出语音信号中至少一个目标子带信号；以及

基于单麦滤波算法，处理所述至少一个目标子带信号，获取第二输出语音信号。

8.如权利要求1所述的方法，其特征在于，所述方法进一步包括：

基于单麦滤波算法处理所述第一信号和/或所述第二信号，确定第三系数；以及

基于所述第三系数，处理所述第一输出语音信号，获取第三输出语音信号。

9.如权利要求6所述的方法，其特征在于，所述方法还包括：

基于所述第一信号和所述第二信号的能量差，确定第四系数；以及

基于所述第一系数、所述第二系数和所述第四系数，处理所述第一信号和/或第二信号以获取所述目标语音对应的语音增强后的第四输出语音信号。

10.一种语音增强系统，其特征在于，包括：

获取模块，用于获取目标语音的第一信号和第二信号，所述第一信号为基于第一位置采集的所述目标语音的信号，所述第二信号为基于第二位置采集的所述目标语音的信号；

处理模块，用于：

基于所述第一信号和所述第二信号，确定与多个声源方向有关的多个参数，每个参数对应从一个声源方向发出声音以形成所述第一信号和所述第二信号的概率；以及

生成模块，用于基于所述第一系数和所述第二系数，处理所述第一信号和/或第二信号以获取所述目标语音对应的语音增强后的第一输出语音信号。