CN105580074B

CN105580074B - 信号处理系统和方法

Info

Publication number: CN105580074B
Application number: CN201480052202.9A
Authority: CN
Inventors: N·斯特因; J·特拉; D·温格特
Original assignee: Analog Devices Inc
Current assignee: Analog Devices Inc
Priority date: 2013-09-24
Filing date: 2014-09-24
Publication date: 2019-10-18
Anticipated expiration: 2034-09-24
Also published as: EP3050056A1; CN105580074A; WO2015048070A1; EP3050056B1

Abstract

处理在用户设备处获取的声信号的方法包括从一组紧密间隔的麦克风获取并行信号以及使用多层计算方法中的一者或两者，在多层计算方法中一些处理在用户设备处执行，另外的处理在与用户设备进行数据通信的一个或多个服务器计算机中执行。利用能量内容以及到达方向的时间相对频率估计来处理所获取的信号。在一些实施例中，使用非负矩阵或张量因子分解方法来确定多个源，每个源均与来自该源的信号的对应到达方向相关联。在一些实施例中，表征到达方向信息的数据从用户设备传送到服务器计算机，在服务器计算机中执行基于方向的处理。

Description

信号处理系统和方法

相关申请的交叉引用

本申请要求以下申请的权益，其中每个申请通过引用方式并入本文中：

·于2013年9月24日递交的、名称为“TIME-FREQUENCY DIRECTIONALFACTORIZATION FOR SOURCE SEPARATION(用于源分离的时频定向因子分解)”的美国临时申请No.61/881,678；

·于2013年9月24日递交的、名称为“SOURCE SEPARATION USING DIRECTION OFARRIVAL HISTOGRAMS(利用到达方向直方图的源分离)”的美国临时申请No.61/881,709；

·于2013年9月23日递交的、名称为“SMOOTHING TIME-FREQUENCY SOURCESEPARATION MASKS(平滑时频源分离掩码)”的美国临时申请No.61/919,851；

·于2013年9月23日递交的且于2014年8月14日公开为美国专利公开2014/0226838、名称为“SIGNAL SOURCE SEPARATION(信号源分离)”的美国申请No.14/138,587；以及

·于2014年4月11日递交的、名称为“APPARATUS，SYSTEMS，AND METHODS FORPROVIDING CLOUD BASED BLIND SOURCE SEPARATION SERVICES(用于提供基于云的盲目源分离服务的装置，系统和方法)”的美国临时申请No.61/978,707。

本申请还涉及到于2014年3月27日公开的、名称为“SOURCE SEPARATION USING ACIRCULAR MODEL(利用圆形模型的源分离)”的国际申请公开WO2014/047025，但是不要求该申请的递交日的权益，该申请也通过引用方式并入本文中。

技术领域

本发明涉及音频信号的时频定向处理。

背景技术

由于获取来自扬声器的期望信号的声波环境，对于包括智能手机、汽车等在内的个人用户设备的口语输入的使用很有挑战性。一种利用多个麦克风信号从兴趣源分离信号的广义方法是束成形，其使用以波长级以上的距离分离的多个麦克风来提供对麦克风系统的定向灵敏度。然而，束成形方法会受例如麦克风的分离不足限制。

已经开发了多种用于从单个麦克风信号进行非监督(例如，“盲目”)源分离的技术，包括利用时间相对频率分解的技术。一些这样的技术利用非负矩阵因子分解(NMF)。一些技术已经应用于多个麦克风信号可用例如具有宽距间隔的麦克风的情形。

用于语言处理的方法，例如语言识别，利用用户设备处的一些处理能力以及这些处理的结果传输到服务器计算机，在服务器计算机中执行进一步的处理。这种方法的实施例描述于例如美国专利8,666,963“Method and Apparatus for Processing SpokenSearch Queries(用于处理口语搜索查询的方法和装置)”。

发明内容

在一个方面，处理在用户设备中获取的声信号的方法包括如下一者或两者：从一组紧密间隔的麦克风获取并行信号，以及使用多层计算方法，在该多层计算方法中一些处理在用户设备处执行，而另外的处理在与用户设备通信的一个或多个服务器计算机中执行。获取的信号利用能量内容以及到达方向的时间相对频率估计来处理。在一些实施例中，使用非负矩阵或张量因子分解方法来确定多个源，每个源与来自该源的信号的对应到达方向关联。在一些实施例中，表征到达信息的方向的数据从用户设备传递给服务器计算机，在服务器计算机中执行基于方向的处理。

在另一方面中，一般地，处理所获取的多个信号的方法使用在用户设备处的对应的多个声传感器。信号具有来自多个空间上分布的声源的部分。该方法包括：利用用户设备处的处理器根据多个获取的信号中的至少一个信号来计算时间相关谱特性，所述谱特性包括多个成分；利用用户设备处的处理器根据多个获取信号中的至少两个信号来计算方向估计，谱特性的每个计算的成分具有方向估计中的对应一个；利用计算的谱特性和计算的方向估计作为输入来执行分解程序以确定多个信号的多个源，谱特性的每个成分具有与确定的源中的至少一个的计算关联度，并且每个源具有与至少一个方向估计的计算关联度；以及利用分解程序的结果来选择性地处理来自一个源的信号。

方面可以包括以下特征中的一个或多个的任意组合，理解的是除非特别指出，否则这些特征中都不是特定实施方案所必要的。

根据获取信号计算出的时间相关谱特性的多个成分中的每个成分与多个连续时间帧中的时间帧相关联。例如，根据获取信号计算出的时间相关谱特性的多个成分中的每个成分与频率范围相关联，由此计算的成分形成获取信号的时频特征化。在至少一些实施例中，每个成分表示对应的时间和频率范围内的能量(例如，经由单调函数，诸如平方根)。

计算成分的方向估计包括计算表示获取信号中的划分的到达方向的数据。例如，计算表示到达方向的数据包括如下至少之一：(a)计算表示一个到达方向的数据，以及(b)计算表示至少一个到达方向的排除的数据。作为另一实施例，计算表示到达方向的数据包括利用(a)相位和(b)获取信号的到达时间中的至少一项来确定与成分相关联的优化方向。优化方向的确定可以包括执行(a)伪逆运算，以及(b)最小二乘误差估计中的至少一项。计算表示到达方向的数据可以包括计算如下至少之一：(a)到达方向的角度表示，(b)到达方向的方向向量表示，以及(c)到达方向的量化表示。

执行分解包括将计算的谱特性和计算的方向估计组合而形成表示按时间、频率和方向索引的分布的数据结构。例如，该方法可以包括利用形成的数据结构来执行非负矩阵或张量因子分解。在一些实施例中，形成数据结构包括形成表示其中缺失分布的输入项中的大部分的稀疏数据结构的数据结构。

执行分解包括确定包括每个成分与对应源的关联度的结果。在一些实施例中，关联度包括二进制关联度。

利用分解的结果来选择性地处理来自一个源的信号包括形成作为对应所述源的获取信号的部分的估计的时间信号。例如，形成时间信号包括使用成分与所确定源的计算关联度来形成所述时间信号。

利用分解的结果来选择性地处理来自一个源的信号包括利用对应所述源的获取信号的估计部分来执行自动语言识别。

执行分解处理和利用分解程序的结果中的至少部分被执行为服务器计算系统与用户设备进行数据通信。例如，该方法进一步包括从用户设备向服务器计算系统传送如下至少之一：(a)方向估计，(b)分解程序的结果，以及(c)利用分解的结果作为获取信号的部分的估计而形成的信号。在一些实施例中，该方法进一步包括将使用分解程序的结果的结果从服务器计算系统传送到用户设备。在一些实施例中，该方法进一步包括将数据从服务器计算系统传送到用户设备，用于在用户设备处执行分解程序。

在另一方面中，一般地，包括处理器和具有多个传感器元件的声传感器的信号处理系统被配置为执行上文阐述的方法中的任一方法的全部步骤。

在另一方面中，一般地，信号处理系统包括：集成到具有多个传感器元件的用户设备中的声传感器；以及也集成在用户设备中的处理器。处理器被配置为：利用用户设备处的处理器来根据多个获取信号中的至少一个信号计算时间相关谱特性，所述谱特性包括多个成分；利用用户设备处的处理器来根据多个获取信号中的至少两个信号来计算方向估计，谱特性的每个计算成分具有对应一个方向估计；利用计算的谱特性和计算的方向估计作为输入来执行分解程序以确定多个信号的多个源，谱特性的每个成分具有与至少一个所确定的源的计算关联度，每个源具有与至少一个方向估计的计算关联度；以及使得利用分解程序的结果来选择性地处理来自一个源的信号。

在一些实施例中，实现所述结果的利用包括利用用户设备的处理器来选择性地处理所述信号。

在一些实施例中，系统进一步包括用于与服务器计算机通信的通信接口，并且实现结果的利用包括将分解程序的结果经由所述通信接口传送到所述服务器计算机。

在另一方面中，一般地，包括具体实施在非暂态机器可读介质上的指令的软件，所述指令在用数据处理系统的一个或多个处理器上的执行引起所述系统到上述方法中的任一方法的全部步骤。

一个或多个方面解决了在用户设备的计算能力限制内提供获取的声信号的精确处理的技术问题。在用户设备处执行获取的声信号的基于方向的处理的方法容许减少传送到服务器计算机以便进一步处理所需的数据量。服务器缉私局用于经常涉及到语言识别的进一步处理容许使用可在服务器计算机中可用的更多的计算资源(例如，处理器速度、运行时间和永久存储容量，等等)。

本发明的其它特征和优点将从下面的说明书以及从权利要求书中变得明显。

附图说明

图1是示出代表性的用户设备和服务器的图；

图2是示出汽车应用的图；

图3是显示处理声信号以产生转录的流程图；

图4是示出代表信号分布的非负矩阵因子分解(NMF)方法的图；以及

图5是流程图。

具体实施方式

一般地，本文描述的实施方案涉及获取典型地代表了来自多个源的信号的组合的音频信号集合的问题，以及处理信号以将特定兴趣源的信号从其它非期望信号中分离出的问题。至少一些实施方案涉及到如下问题：当获取信号包括感兴趣的语言语调以及干涉语言和/或非语言信号时为自动语言识别而分离出感兴趣信号。其它实施方案涉及到增强音频信号以呈现给人类收听者的问题。又有另外的实施方案涉及自动语言处理的其它形式，例如扬声器校验或基于语音的搜索查询。

实施方案还包括如下一个或两个：(a)在音频信号获取期间获取方向信息，以及(b)在多层体系结构中处理音频信号，其中可以对不同的计算设备，例如在客户端-服务器布置中，执行处理的不同部分。应当理解，这两个特征的独立且且一些实施方案可以使用关于单个计算设备的方向信息，并且其它实施方案可以不使用方向信息，尽管如此可以使用多层体系结构。最后，至少一些实施方案可以既不使用方向信息又不使用多层体系结构，例如，仅使用下文所描述的时频因子分解方法。

参考图1，在示例性实施方案的背景下描述了可以在各个实施方案中呈现的特征，其中多个个人计算设备，具体为智能手机210(在图中仅示出了其中单个)，包括一个或多个麦克风110，其中每个麦克风具有多个紧密间隔的元件(例如，1.5mm，2mm，3mm间距)。这些麦克风的示例性结构可见于美国专利公开2014/0226838中。智能手机包括处理器212，其与模拟-数字转换器(ADC)耦合，ADC提供在麦克风110处获取的数字化音频信号。处理器包括：存储设备140，存储设备部分地用于表示获取的声信号的数据；以及CPU 120，其实现下文描述的各程序。智能手机210经由数据链路(例如，经由蜂窝数据连接)与服务器220耦合。服务器包括CPU 122和关联的存储设备142。如下文所描述的，在智能手机处获取的音频信号处理期间和/或处理之后紧接着，数据在智能手机与服务器之间传送。例如，部分处理的音频信号从智能手机传送到服务器，并且进一步处理的结果(例如，自动语言识别的结果)从服务器传回智能手机。作为另一实施例，服务器220可以将数据提供给智能手机，例如源的估计定向信息或谱原型，其在智能手机中用于全部地或者部分地处理在智能手机中获取的音频信号。

应当理解，智能手机应用仅为用户设备的多个实施例中的一个。另一实施例显示在图2中，其中多元件麦克风集成到车辆250中，利用车辆中的计算设备来处理来自扬声器205的所获取的音频信号的至少一些处理，并且计算设备可以任选地与服务器通信以执行获取信号的至少一些处理。

在一个实施例中，多个元件麦克风110获取多个并行的音频信号。例如，麦克风从紧密间隔的元件112(例如，间隔小于2mm)获取四个并行音频信号并且将这些信号作为模拟信号(例如，在单独的电线或光纤上的电信号或光信号，在共同的线或光纤上多路复用的电信号或光信号)x₁(t)，...，x₄(t)传递到ADC 132。一般地，获取的音频信号的处理包括执行生成正实量X(f，n)的时频分析，其中f是频率仓上的索引，n是时间间隔上的索引(即，帧)。例如，对具有1024个频率仓的每一增量偏移30ms的一系列时间窗中的每一个(“帧”)中的时间信号执行短时傅立叶变换(STFT)分析，对于每个输入信号在每个帧上产生1024个复量。在一些实现方式中，将一个输入信号选为代表，并且代表量值的量X(f，n)(或者可替代地，平方量值或者量值的压缩变换，诸如平方根)从时间信号的STFT分析得到，对于稍后的分离时间信号的重构保持复量的角度。在一些实现方式中，不是选择代表性的输入信号，时间信号或其STFT表示的组合(基于先前方向估计的加权平均或线性束成形器的输出)用于形成Xf，n)和关联的相位量。

除了量值相关信息之外，到达方向(DOA)信息从时间信号计算出，也按频率和帧来索引。例如，可以表示为标量或多维向量的连续入射角估计D(f，n)得自STFT的相差。到达方向计算方法的实施例如下。麦克风的几何结构先验得知，并且因此用于每个麦克风信号的相位的线性等式可表示为其中是第k个麦克风的三维位置，是到达方向上的三维向量，δ₀是共用于全部麦克风的固定延时，并且δ_k＝φ_k/ω_i是是根据第k个麦克风的复STFT的相位φ_k计算出的频率ω_i处的频率成分的第k个麦克风处观察到的延时。多个麦克风的等式能够表达为矩阵等式Ax＝b，其中A是K×4矩阵(K是麦克风的数量)，其取决于麦克风的位置，x表示到达方向(以单位元件扩增的4维向量)，并且b是表示观测到的K个相位的向量。当存在四个非共面麦克风时，该等式能够唯一地被求解。如果存在多个数量的麦克风或者该独立性不满足，则系统能够在最小二乘意义上进行求解。对于固定几何结构，A的伪逆P能够计算一次(例如，作为麦克风上的端口的物理布置的属性)并且硬编码到将到达方向x的估计实现为Pb的计算模块中。然后，方向D直接从向量方向x上获得。在一些实施例中，应当与声速一致(例如，等于)的方向向量x的量值用于确定例如该方向的置信得分，如果量值与声速不一致，则表示出低置信度。在一些实施例中，利用固定的方向集合(例如，20个仓)或者利用与观测到的到达方向的长期分布一致的适应的方向集合来量化(即，分仓)到达方向。

注意的是，使用伪逆方法来估计方向信息仅为一个实施例，其适合于麦克风元件紧密间隔的情形，从而降低短语“缠绕”的效应。在其它实施方案中，至少一些对麦克风元件可以更宽的间隔，例如，以36mm ad 63mm间距的矩形布置。在该布置中，替代的实施方案利用如在名称为“SOURCE SEPARATION USING A CIRCULAR MODEL”的国际申请公开W02014/047025中所描述的方向估计技术(例如，线性最小二乘估计)。在另外其它实施方案中，短语解绕方法与如上所述的伪逆方法相结合应用，利用，在应用了伪逆方法之后，使用解绕方法来产生近似延时估计。当然，本领域技术人员将理解，可以使用处理信号(以及尤其是信号的处理相位信息)而产生方向估计的另外其它方法。注意，所谓的方向估计，值得是单一方向或者排除了一些方向或者使得一些方法基本上不可能出现的方向的至少一些表征。

各个实施方案利用包括作为频率和时间函数的量值和方向信息的时频分析，并且形成在用于从获取的音频信号中分离感兴趣信号的相同的频率和时间索引上所索引的时频掩码M(f，n)。在一些实施例中，使用批处理方法，其中用户205讲出语调并且通过麦克风110将语调获取作为并行的音频信号x₁(t)，...，x₄(t)。这些信号作为一个单元被处理，例如，计算语调的持续时间内的整个掩码。在不同实施方案中使用若干可替代的多层处理方法，包括例如：

·在用户设备处计算谱量值和X(f，n)到达方向D(f，n)且然后将其传送给服务器，并且所有其余的处理在一个或多个服务器上执行，结果传回给用户设备。在一些实施例中，使用多层方法，其中一个计算机服务器执行期望信号(即，时间信号或等同表示)的分离，而另外的服务器计算机执行期望信号的其它处理。

·在用户设备处计算掩码，并且处理获取的时间信号x₁(t)，...，x₄(t)以形成单一分离信号并且将分离的信号传递到服务器，在服务器中例如使用自动语言识别处理来处理该分离的信号。

·在用户设备处计算掩码，并且获取的时间信号x₁(t)，...，x₄(t)中的一个(或者平均或其它组合)连同计算出的掩码一起传递给服务器，在服务器中处理该掩码。在一些实现中，服务器执行首先利用掩码分离出期望信号以及然后应用自动语言识别处理的串联操作。在一些实现中，掩码信息集成到语言识别处理中，例如，应用“缺失数据”方法来估计自动语言识别处理的输入特征向量。在一些实施例中，获取的时间信号如其被采集时一样传递给服务器，并且当由用户设备计算出时传递掩码，从而减少延时。

·在上述方法中，不是将时间信号发送给服务器，而是将谱信息，例如来自STFT的谱量值信息传递给服务器。STFT或者表示输入信号且掩码连同谱量值一起传递，分离出的信号的谱量值在用户设备处计算出且传递给服务器。服务器使用谱量值来计算自动语言识别或其它处理的输入特征向量(例如，mel扭曲倒谱)，而不必重构待处理的时间信号。

·在一些实施例中，用户设备进一步处理分离信号的STFT，例如，在将它们传递给服务器之前计算语言识别特征向量。这种用户设备处进行处理的一个优点在于可以减少要发送给服务器的数据量。

·在一些实施例中，处理后的音频和/或处理后的方向信息(例如，方向估计)，其可以包括压缩音频、压缩时频能量分布，基于时频的到达方向信息(可以编码为稀疏表示)，从用户设备传递给服务器，在服务器处被进一步处理。

在一些实施例中，用户的设备不会等待直至完成语调来传递分离的信号或掩码信息。例如，输入语调的顺序或滑动段被处理，且信息诸如其被计算出时那样被传递给服务器。

参考图3，在流程图形式中显示出上述程序的实施例，其中声信号x₁(t)，...，x₄(t)由麦克风110来获取。谱估计和方向估计级310产生了上述的量值X(f，n)和方向信息D(f，n)。在至少一些实施方案中，该信息用于信号分离级320来生成分离时间信号并且该分离信号传递给语言识别级330。语言识别级330生成转录，如上所介绍的，在一些实现中，分离的信号在用户设备处被确定且传递到服务器计算机，在服务器计算机中执行语言识别级330，转录从服务器计算机回传给用户设备。在其它实施例中，转录被进一步处理，例如，形成查询(例如，网络搜索)，查询结果传回到用户设备或进行其它处理。

继续参考图3，信号分离级320的实现涉及到首先执行频域掩码级322，这生成掩码M(f，n)。该掩码然后用于在频域执行信号分离而生成然后传递到谱逆级326，其中例如使用逆变换来确定时间信号注意在图3中，没有显示出与X(f，n)和相关联的相位信息(即，按频率f和时间帧n索引的复量的角度)流。

如下文更全面论述的，不同的实现方式以略微不同的方式实现信号分离级320。参考图4，一个方法涉及到利用来自获取信号的计算的量值和方向信息作为如下分布来处理

p(f，n，d)＝p(f，n)p(d|f，n)

其中

并且

分布p(f，n，d)可视为概率分布，其中量都在范围0.0至1.0内，在所有索引值上的总和是1.0。而且，应当理解的是，方向分布p(d|f，n)不一定是0或1，在一些实现方式中，可表示为多个离散方向值d具有非零值的分布。在一些实施方案中，分布可以是离散的(例如，使用固定或自适应方向“仓”)或者可以表示为方向的一维或多维表示上的连续分布(例如，参数化分布)。

极其一般地，信号分离方法的多种实现方式基于形成p(f，n，d)的近似q(f，n，d)，其中分布q(f，n，d)具有隐式多源结构。参考图4，一种表示隐式多源结构的方法是使用非负矩阵因子分解(NMF)方法，更特别地是使用非负张量(即，三维以上)因子分解方法。假设该信号已经由s＝1，...，S索引的多个不同的源生成。每个源还与z＝1，...，Z索引的多个原型频率分布相关联。原型频率分布q(f|z，s)提供由f索引的各频率仓的相对量值。不同原型对于给源的时变贡献由在时间帧索引值n和原型索引值z上总和为1.0的项q(n|z，s)表示。在不存在方向信息的情况下，特定源s在频率和帧索引上的分布能够表示为

然后，根据如下构成部分来确定总分布q(f，n，d)：

一般地，信号分离相的操作找到模型的组件来最佳匹配由观测信号确定的分布。这表达为优化以最小化由实际观测到的信号确定的分布p()和由结构化组件形成的q()之间的距离，距离函数表达为D(p(f，n，d)||q(f，n，d))。可以使用多个不同的距离函数。一个适合的函数是Kullback-Leibler(KL)发散性，定义为

对于KL距离，能够使用多种替代的迭代方法来找到q(f，n，d，s，z)的最佳结构。一种替代方案是使用期望-最大化程序(EM)，或者最小化-最大化(MM)程序的另一实施例。在至少一些实施方案中使用的MM程序的实现方式能够概述如下：

1)已知当前估计(由上标0指示)提供当前估计：

2)边缘分布(至少在概念上)计算为

3)计算新的联合分布为

r(f，t，d，s，z)＝p(f，n，d)q⁰(s，z|f，n，d)

4)组件的新估计(由上标1指示)(至少在概念上)计算为

且

在一些实现方式中，重复迭代固定次数(例如，10次)。可以使用替代的停止标准，例如，基于距离函数的变化，估计值的变化，等等。注意的是，上文确定的计算可以高效地实现为矩阵计算(例如，使用矩阵乘法运算)，以及通过适当的计算中间量。

在一些实现方式中，使用p(f，n，d)的稀疏表示，使得如果d≠D(f，n)则这些项为零。上文列出的迭代程序的步骤2-4则能够表达为

2)计算

ρ(f，n)＝p(f，n)/q⁰f，n，D(f，n))

3)新估计计算为

类似地计算。

一旦完成迭代，则掩码函数可设定为

其中s^*是期望源的索引。在一些实施例中，期望源的索引由源的估计方向q(d|s)来确定(例如，期望源在期望方向上)，源q(s)的相对贡献(例如，期望源具有最大贡献)，或者两者。

多种不同的方法可用于利用掩码分离期望信号。在一种方法中，使用阈值化方法，例如通过设定

在另一方法中，使用“软”掩码法，例如通过M(f，n)或掩码的某其它单调函数将量值信息标定为例如逐元素相乘

该后一方法略类似于在X(f，n)表示谱能量(例如，STFT的平方量值)的情况下使用时变Wiener滤波器。

应当理解的是，另外其它将期望信号从获取信号中分离的方式可以基于估计分解。例如，不是确定特定的期望信号，可以确定一个或多个非期望的信号及其对X(f，n)“减”的贡献以形成期望信号的增强表示。

此外，如上文所介绍的，利用“缺失数据”方法(例如参见Kuhne等人于2008年发表于Speech Recognition，Technologies and Applications上的“Time-FrequencyMasking：Linking Blind Source Separation and Robust Speech Recognitiaon”)，掩码信息可直接用于估计基于谱的语言识别特征向量，诸如倒谱。一般地，在确定语言识别特征向量时，这些方法将其中源分离方法指示期望信号不存在的时频仓处理为“缺失”。

在上文关于信号分布的源和方向结构化表示的估计的论述中，对于不同的语调和/或没有任何先验信息，可以独立地做出估计。在一些实施方案中，可以使用各种信息源来改进估计。

可以使用关于源方向的先验信息。例如，扬声器相对于智能手机的先验分布或者驾驶员相对于车辆上安装的麦克风的先验分布可并入方向信息的再估计(例如，q(d|s)项，或者通过保持这些项固定而不进行再估计(或者具有极小频率的再估计)，例如设定在先验值。此外，手持式手机方位的跟踪(例如，使用惯性传感器)可用于将扬声器相对于麦克风的方向信息变换成无关于手机方位的形式。在一些实现方式中，关于期望源的方向的先验信息例如可经由图形用户接口由用户提供，或者可以本质上是用户设备的典型用途，例如，扬声器通常位于相对于智能手机正面的相对一致的位置。

关于源的谱原型的信息(即，q_s(f|z))可从各种源取得。一个源可以是“标准”类语言原型的集合。另一源可以是在先前语调中确定的原型。关于源的信息还可以基于期望的干扰信号的特征化，例如风噪声、挡风板刮水器噪声，等等。该先验信息可用于统计先验模型架构，或者可用作上述的迭代优化程序的初始化。

在一些实现方式中，服务器向用户设备提供反馈，其有助于期望信号的分离。例如，用户的设备可以将谱信息X(f，n)提供给服务器，并且服务器通过语言识别处理可以向用户设备返回确定期望源(例如所确定的干扰语言或非语言源)的适当的谱原型q_s(f|z)。用户的设备随后可以使用这些作为固定值，作为先验估计，或者作为迭代再估计的初始化。

应当理解，上文提供的用于分布模型的特定结构以及用于模型成分的估计的程序不是唯一方法。非常一般地，除了非负矩阵因子分解之外，可以使用诸如独立成分分析(ICA)的其它方法。

在形成期望信号的掩码和/或分离的又另外的新颖方法中，通过基于例如在时间窗上的一个或多个获取信号计算时间相对频率的分布P(f，n)来处理获取的声信号。该分布的值是非负的，并且在该实施例中，分布在频率值f∈[1，F]和时间值n∈[1，N]的离散集合上。在一些实现方式中，P(f，n₀)的值利用短时傅立叶变换在对应STFT的第n₀个分析窗(帧)的输入信号的时点t₀附近的离散频率f来确定。

除了谱信息之外，获取信号的处理还包括对于信号的多个成分确定每个时间帧的定向特性。计算定向特性的信号的成分的一个实施例是分离的谱成分，但是应当理解可以使用其它分解。在该实施例中，对于每个(f，n)对确定方向信息，并且在索引上的到达方向估计D(f，n)被确定为离散化(例如，量化)值，例如对于D(例如，20)个离散(即，“分仓”)到达方向，d∈[1，D]。

对于获取信号的每个时间帧，形成定向直方图P(d|n)，表示时间帧n处的不同频率成分所源自的方向。在该使用离散化方向的实施方案中，该方向直方图由对于D个方向中的每一个由数字构成：例如，在以该方向标记的该帧中的频率仓的总数(即，D(f，n)＝d的仓f的数量)。不是对对应于方向的仓计数，能够利用这些仓的TFT量值的总和(例如，P(d|n)∝∑_{f：D(f，n)＝d}P(f|n))或者这些量值的平方或者更重地加权较高能量仓的效应的类似方法来实现更佳的性能。在其它实施例中，获取信号的处理提供了连续值(例如，精细量化)方向估计D(f，n)或者参数化或非参数化分布P(d|f，n)，并且根据方向估计来计算直方图或者连续分布P(d|n)。在下面的方法中，详细描述P(d|n)形成直方图(即，d的离散值的值)的情况，然而应当理解方法可同样适用于解决连续的情况。

所得到的定向直方图能够解释为在每个时间帧来自每个方向的信号强度的度量。除了由于噪声导致的变化之外，期望这些直方图随着一些源打开和关闭随时间而变化(例如，当人停止少讲话到没有能量来自他的大致方向，除非在他后面有另一噪声源，我们不处理的情况)。

一种使用该信息的方式是在时间上对这些直方图求和或求平均(例如，为得到的总量直方图的峰值则对应于源。这些能够由峰值发现算法来检测到，并且通过例如取峰值之间的中点能够界定源之间的界限。

另一方法是考虑在时间上所有定向直方图的集合并且分析哪些方向趋向于一起增加或减少权重。做这些的一种方式是计算这些直方图的样本方差或相关矩阵。方向估计的分布的相关或方差用于确定与不同源相关联的单独的分布。一种这样的方法利用方向直方图的方差，例如计算为

其中其能够以矩形形式表示为

其中P(n)和是D维列向量。

可以对方差矩阵Q或者对相关矩阵执行各种分析。例如，Q的主成分(即，与最大本征值相关联的本征向量)可视为代表不同源的原型定向分布。

其它检测这种模式的方法还可用于相同目的。例如，计算时间帧和多个(例如，5个，这趋于仅仅在1后略微变化)帧的方向对的联合(可能是加权)直方图，随后在所有时间上平均化，能够实现相似的结果。

另一种使用相关或方差矩阵的方式是形成方向对d₁与d₂之间的两两“相似度”。我们将方差矩阵视为方向之间的相似度矩阵，并且将诸如亲和度传播或k-medoids的聚类方法应用于对共同相关的方向进行分组。所得到的聚类随后取为对应于各个源。

以此方式，环境中的离散的源集合被确定，并且判定每个的定向分布图。这些分布图能够用于利用上述掩码方法重构各源发射的声音。它们还能够用于为用户呈现每个源相对于麦克风阵列的位置的图形示例，允许手动选择哪些源通过以及阻挡或可视反馈哪些源被自动阻挡。

在另一实施方案中，由上述一个或多个方法确定在一组时频位置上的输入掩码值。这些掩码值可以具有局部误差或偏差。这些误差或偏差具有由掩码信号构造的输出信号具有非期望特性诸如音频伪迹的可能结果。

作为能够与上述方法组合的任选特征，可以“平滑”所确定的掩码信息。例如，“平滑”或以其它方式处理掩码值的一种普通类别的方法利用二进制马尔科夫随机场，将输入掩码值有效地处理为真实而未知(即，实际所需)的输出掩码值的“噪声”观察。下面描述的多种技术解决了二进制掩码的情况，但是应当理解，技术直接可用于或者可适应于非二进制(例如，连续或多值)掩码的情况。在许多情形下，利用Gibbs算法或相关方法的顺序更新可能在计算上受抑制。可用的并行更新程序可能不可用，因为马尔科夫随机场的相邻结构不允许以使能实现当前并行更新程序的方式对位置进行分区。例如，以时频网格中的八个近邻上的每个值为条件的模型不适于划分到确切并行更新的位置的子集中。

本文公开了另一方法，其中对于类Gibbs算法的并行更新基于多个更新位置的子集的选择，应当理解条件独立假设可以在并行更新的多个位置上被违反。虽然这意味着被采样的分布不精准地是对应于MRF的一个，但是实际上该方法提供了有用的结果。

因此，本文提供的程序按更新周期顺序重复。在每个更新周期，根据确定性模式随机地选择(例如，选择随机小部分，诸如一半)位置子集(即，掩码的时频成分)，或者在一些实施例中形成位置的整个集合。

当在底层MRF齐次的情形下并行更新时，根据固定核的位置不变卷积用于计算所有位置上的值，然后在所更新的位置处的值的子集用于常规Gibbs更新(例如，抽取随机值以及在至少一些实施例中在每个更新位置进行比较)。在一些实施例中，卷积实现在变换域中(例如，傅立叶变换域中)。使用变换域和/或固定卷积方法也可应用于选择适当的模式更新(例如，棋盘模式)的确切情形下，例如，因为计算规则度提供了优于最终未使用的值的计算的益处。

程序的概括显示在图5的流程图中。注意的是，步骤的具体次序可以在一些实施方案中改变，并且可以利用不同的数学公式而不改变方法的实质方面来实现步骤。首先，在多个传感器(例如，麦克风)处获取例如音频信号的多个信号(步骤612)。在至少一些实现方式中，在分析步骤中确定在连续分析帧(n)和频率(f)处的相对相位信息(步骤614)。基于该分析，对于每个时频位置确定-1.0(即，表示“可能关闭”的数值量)与+1.0(即，表示“可能打开”的数值量)之间的值作为原始(或输入)掩码M(f，n)(步骤616)。当然，在其它应用中，按照除了根据相位或到达方向信息以外的其它方式确定输入掩码。该程序的输出是确定平滑掩码S(f，n)，其初始化为等于原始掩码(步骤618)。执行另外步骤的迭代序列，例如在预定迭代次数(例如，50次迭代)后终止。每次迭代以具有局部核的当前平滑掩码的卷积开始而形成滤波掩码(步骤622)。在一些实施例中，该核在时间和频率上正负延伸一个样本，权重为：

通过sigmoid1/(1+exp(-x))滤波掩码加上原始掩码的多个α倍，形成值在0.0至1.0范围内的滤波掩码F(f，n)(步骤624)，例如，α＝2.0。随机地或者根据确定性模式可替代地选择(f，n)位置的小部分h的子集，例如，h＝0.5(步骤626)。迭代地或者并行地，在这些随机位置上的平滑掩码S进行概率更新，使得被选定为更新的位置(f，n)被设定为概率为F(f，n)的+1.0，以及概率为(1-F(f，n))的-1.0(步骤628)。迭代测试(步骤632)的结束允许步骤622-628的迭代在例如预定迭代次数内继续。

任选地执行进一步的计算(图5的流程图中没有示出)以确定平滑滤波掩码SF(f，n)。该掩码计算为sigmoid函数，其应用于在拖尾范围的迭代上计算出的滤波掩码的平均值，例如在最后40至50次迭代上计算出的平均值，而产生具有范围在0.0至1.0内的量的掩码。

上述方法的实现方式可以通过软件、硬件或者硬件和软件的组合来实现。例如，在用户设备(例如，智能手机)中，获取的声信号的处理可以在通用处理器中执行，在专用处理器(例如，信号处理器或与麦克风单元耦合的或者嵌入麦克风单元中的处理器)中执行，或者可以利用专用电路系统(例如，专用集成电路，ASIC)来实现。软件可以包括存储在非暂态介质(例如，半导体存储器件)上或者经由数据网络传递到用户设备且至少临时存储在数据网络中的指令。类似地，服务器实现方式包括一个或多个处理器，用于实现上述服务器侧程序的指令的非暂态机器可读存储设备。

应当理解的是，前面的说明书意在图示且不限制本发明的范围，本发明的范围由随附权利要求的范围限定。其它实施方案在随附的权利要求的范围内。

Claims

1.一种用于处理多个信号的方法，所述多个信号是利用用户设备处的对应的多个声传感器而获取的，所述信号具有来自空间上分布的多个声源的部分，所述方法包括：

利用所述用户设备处的处理器根据获取的所述多个信号中的至少一个信号来计算时间相关谱特性，所述谱特性包括多个成分，每个成分与相应的一对频率(f)值和时间(n)值关联；

利用所述用户设备处的所述处理器根据获取的所述多个信号中的至少两个信号来计算方向估计，计算出的所述谱特性的每个成分具有所述方向估计(d)中的对应的一个方向估计；

将计算出的谱特性和计算出的方向估计组合，以形成表示按频率(f)、时间(n)和方向(d)索引的分布p(f，n，d)的数据结构；

形成所述分布p(f，n，d)的近似q(f，n，d)，所述近似具有隐式多源结构，所述隐式多源结构假设获取的所述多个信号中的所述至少一个信号由按s＝1，...，S索引的多个不同的声源生成，每个声源与按z＝1，...，Z索引的多个原型频率分布相关联，使得所述近似能够被因子分解为构成部分；

对调整所述近似q(f，n，d)的模型的成分执行多次迭代，以匹配所述分布p(f，n，d)；以及

计算掩码函数M(f，n)，所述掩码函数M(f，n)用于利用与空间上分布的所述多个声源中的所选择的声源(s^*)对应的近似的构成部分，将所选择的声源(s^*)的贡献从获取的所述多个信号中的至少一个信号中分离。

2.如权利要求1所述的方法，其中根据获取的信号计算出的所述时间相关谱特性的所述多个成分中的每个成分与多个连续时间帧中的时间帧相关联。

3.如权利要求2所述的方法，其中，根据获取的信号计算出的所述时间相关谱特性的所述多个成分中的每个成分与频率范围相关联，由此计算出的成分形成获取的信号的时频特性。

4.如权利要求3所述的方法，其中每个成分表示对应的时间和频率范围内的能量。

5.如权利要求1所述的方法，其中，计算成分的方向估计包括计算表示获取的信号中的所述成分的到达方向的数据。

6.如权利要求5所述的方法，其中计算表示所述到达方向的数据包括如下至少之一：(a)计算表示一个到达方向的数据，以及(b)计算表示至少一个到达方向的排除的数据。

7.如权利要求5所述的方法，其中计算表示所述到达方向的数据包括利用(a)相位以及(b)获取的信号的到达时间中的至少一项来确定与所述成分相关联的优化方向。

8.如权利要求7所述的方法，其中确定所述优化方向包括执行(a)伪逆运算以及(b)最小二乘误差估计中的至少一项。

9.如权利要求5所述的方法，其中计算表示所述到达方向的数据包括计算(a)到达方向的角表示、(b)到达方向的方向向量表示以及(c)到达方向的量化表示中的至少一项。

10.如权利要求1所述的方法，进一步包括利用所形成的数据结构来执行非负张量因子分解。

11.如权利要求1所述的方法，其中形成所述数据结构包括形成稀疏数据结构，在所述稀疏数据结构中所述分布的大部分条目缺失。

12.如权利要求1所述的方法，其中在完成所述多次迭代之后计算掩码函数。

13.如权利要求1所述的方法，进一步包括将掩码函数M(f，n)应用于获取的所述多个信号中的至少一个信号，以估计获取的所述多个信号中的所述至少一个信号中的与所选择的声源对应的部分。

14.如权利要求13所述的方法，进一步包括利用获取的所述多个信号中的所述至少一个信号中的估计出的与所选择的声源对应的部分，来执行自动语音识别。

15.如权利要求1所述的方法，其中在与用户设备进行数据通信的服务器计算系统处执行以下中的至少一部分：形成所述近似q(f，n，d)、执行所述多次迭代以及计算掩码函数M(f，n)。

16.如权利要求15所述的方法，进一步包括从所述用户设备向所述服务器计算系统传送如下至少之一：(a)所述方向估计，(b)执行所述多次迭代的结果，以及(c)作为获取的所述多个信号中的所述至少一个信号中的与所选择的声源对应的部分的估计而形成的信号。

17.一种信号处理系统，包括：

声传感器，集成在用户设备中，具有多个传感器元件；以及

处理器，集成在所述用户设备中；

其中处理器被配置为

计算掩码函数M(f，n)，所述掩码函数M(f，n)用于利用与空间上分布的多个声源中的所选择的声源(s^*)对应的近似的构成部分，将所选择的声源(s^*)的贡献从获取的所述多个信号中的至少一个信号中分离。

18.如权利要求17所述的信号处理系统，其中所述处理器被进一步配置为对获取的所述多个信号中的至少一个信号利用掩码函数M(f，n)，以估计获取的所述多个信号中的所述至少一个信号中的与所选择的声源对应的部分。

19.如权利要求18所述的信号处理系统，其中所述处理器被进一步配置为利用获取的所述多个信号中的所述至少一个信号中的估计出的与所选择的声源对应的部分，来执行自动语音识别。

20.如权利要求18所述的信号处理系统，进一步包括用于与服务器计算系统通信的通信接口，其中对获取的所述多个信号中的至少一个信号利用掩码函数M(f，n)包括：经由通信接口将掩码函数M(f，n)和/或所述因子分解的构成部分发送给服务器计算机。

21.如权利要求17所述的信号处理系统，进一步包括用于与服务器计算系统通信的通信接口，其中形成所述分布p(f，n，d)的近似q(f，n，d)包括：将指示所述分布p(f，n，d)的信息提供给服务器计算系统，以及从服务器计算系统接收所述分布p(f，n，d)的所述近似q(f，n，d)、或者使得能够形成所述分布p(f，n，d)的所述近似q(f，n，d)的信息。

22.如权利要求21所述的信号处理系统，进一步包括从所述用户设备向所述服务器计算系统传送如下至少之一：(a)所述方向估计，(b)执行所述多次迭代的结果，以及(c)作为获取的所述多个信号中的所述至少一个信号中的与所选择的声源对应的部分的估计而形成的信号。

23.如权利要求17所述的信号处理系统，其中根据获取的信号计算出的所述时间相关谱特性的所述多个成分中的每个成分与多个连续时间帧中的时间帧相关联。

24.如权利要求23所述的信号处理系统，其中，根据获取的信号计算出的所述时间相关谱特性的所述多个成分中的每个成分与频率范围相关联，由此计算出的成分形成获取的信号的时频特性。

25.如权利要求24所述的信号处理系统，其中，每个成分表示对应的时间和频率范围内的能量。

26.一种信号处理系统，用于处理利用对应的多个声传感器而获取的多个信号，所述信号具有来自空间上分布的多个声源的部分，所述系统包括：

用于根据获取的所述多个信号中的至少一个信号来计算时间相关谱特性的部件，所述谱特性包括多个成分，每个成分与相应的一对频率(f)值和时间(n)值关联；

用于根据获取的所述多个信号中的至少两个信号来计算方向估计的部件，计算出的所述谱特性的每个成分具有所述方向估计(d)中的对应的一个方向估计；

用于将计算出的谱特性和计算出的方向估计组合，以形成表示通过频率(f)、时间(n)和方向(d)索引的分布p(f，n，d)的数据结构的部件；

用于形成所述分布p(f，n，d)的近似q(f，n，d)的部件，所述近似具有隐式多源结构，所述隐式多源结构假设获取的所述多个信号中的所述至少一个信号由通过s＝1，...，S索引的多个不同的声源生成，每个声源与通过z＝1，...，Z索引的多个原型频率分布相关联，使得所述近似能够被因子分解为构成部分；

用于对调整所述近似q(f，n，d)的模型的成分执行多次迭代，以匹配所述分布p(f，n，d)的部件；以及

用于计算掩码函数M(f，n)的部件，所述掩码函数M(f，n)用于利用与空间上分布的所述多个声源中的所选择的声源(s^*)对应的近似的构成部分，将所选择的声源(s^*)的贡献从获取的所述多个信号中的至少一个信号中分离。

27.如权利要求26所述的信号处理系统，进一步包括：用于将掩码函数M(f，n)应用于获取的所述多个信号中的至少一个信号，以估计获取的所述多个信号中的所述至少一个信号中的与所选择的声源对应的部分的部件。

28.如权利要求27所述的信号处理系统，进一步包括：用于利用获取的所述多个信号中的所述至少一个信号中的估计出的与所选择的声源对应的部分，来执行自动语音识别的部件。

29.如权利要求26所述的信号处理系统，进一步包括：用于将掩码函数M(f，n)应用于获取的所述多个信号中的至少一个信号，以估计获取的所述多个信号中的所述至少一个信号中的与所选择的声源对应的部分的部件。

30.如权利要求29所述的信号处理系统，进一步包括：用于利用获取的所述多个信号中的所述至少一个信号中的估计出的与所选择的声源对应的部分来执行自动语音识别的部件。

31.如权利要求26所述的信号处理系统，进一步包括：用于利用所形成的数据结构来执行非负张量因子分解的部件。

32.如权利要求26所述的信号处理系统，其中形成所述数据结构包括形成稀疏数据结构，在所述稀疏数据结构中所述分布的大部分条目缺失。