CN112088315B

CN112088315B - 多模式语音定位

Info

Publication number: CN112088315B
Application number: CN201980030506.8A
Authority: CN
Inventors: E·克鲁普卡; 肖雄
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2018-05-07
Filing date: 2019-04-30
Publication date: 2024-04-02
Anticipated expiration: 2039-04-30
Also published as: EP3791391A1; US10847162B2; WO2019217135A1; US20190341054A1; CN112088315A

Abstract

使用由一个或多个相机捕获的图像数据以及由麦克风阵列捕获的音频数据来实现多模式语音定位。变换由阵列的每个麦克风捕获的音频数据以获得在多个频率间隔中离散化的频域表示。由每个相机捕获的图像数据被用于确定每个人类面部的定位。将输入数据提供给在先训练的音频源定位分类器，包括：由每个麦克风捕获的所述音频数据的所述频域表示，以及由每个相机捕获的每个人类面部的定位，其中，每个人类面部的定位表示候选音频源。由分类器基于被估计为所述音频数据所源自的人类面部的输入数据来指示识别出的音频源。

Description

多模式语音定位

背景技术

可以使用机学习技术将人类语音转换为文本。然而，在包括两个或更多个讲话者的环境中，现有技术的语音识别器不能够可靠地将语音与正确的讲话者相关联。

发明内容

使用由一个或多个相机捕获的图像数据以及由两个或更多个麦克风的麦克风阵列捕获的音频数据，来实现多模式语音定位。变换由阵列的每个麦克风捕获的音频数据以获得在多个频率间隔中离散化的频域表示。由每个相机捕获的图像数据被用于确定在环境内观察到的每个人类面部的定位，包括面部的位置和取向。将输入数据提供给在先训练的音频源定位分类器，包括：由每个麦克风捕获的音频数据的频域表示，以及由每个相机捕获的每个人类面部的定位，其中，每个人类面部的定位表示候选音频源。识别出的音频源由分类器指示为基于输入数据的输出。识别出的音频源由分类器估计为音频数据表示的声音所源自的人类面部。

附图说明

图1A-1C描绘了包括示例性计算机化会议助理的计算环境。

图2示意性示出了通过声源定位机对声音信号的分析。

图3示意性示出了通过波束形成机对声音信号的波束形成。

图4示意性示出了通过面部检测机对人脸的检测。

图5示意性示出了通过面部识别机对人脸的识别。

图6示意性示出了示例性区分(diarization)框架。

图7是区分机的示例性输出的视觉表示。

图8示意性示出了通过语音识别机对话语的识别。

图9示出了通过计算机化会议助理进行区分的示例。

图10示出了示例性会议转录。

图11示意性示出了示例性区分框架，其中，语音识别机在区分机的下游。

图12示意性示出了示例性区分框架，其中，语音识别机在区分机的上游。

图13是描绘包括关联方法的示例性处理管线的流程图。

具体实施方式

图1A示出了示例性会议环境100，其包括围绕桌子104开会的三个会议参与者102A、102B和102C。计算机化会议助理106在桌子104上就绪以促进会议参与者之间的会议。符合本公开的计算机化会议助理可以配置有被设计为促进富有成效的会议的多种特征。然而，以下描述主要集中于与将记录的语音与适当的讲话者相关联的特征。尽管下文的描述使用计算机化会议助理106作为示例性计算系统，所述示例性计算系统被配置为将语音归因于正确的讲话者，但是可以将利用任意数量的不同麦克风和/或相机配置的其他计算机或计算机组合配置为利用在本文中所描述的技术。这样，本公开并不限于计算机化会议助理106。

图1B示意性示出了计算机化会议助理106的相关方面，下文将对其中的每个方面进行讨论。特别相关的是，计算机化会议助理106包括一个或多个麦克风108以及一个或多个相机110。

如在图1A中所示的，计算机化会议助理106包括七个麦克风108A、108B、108C、108D、108E、108F和108G的阵列。如在图1C中所示的，这些麦克风108被配置为定向地记录声音，并且将听得见的声音转换为计算机可读信号112(即，分别为信号112a、112b、112c、112d、112e、112f和112g)。麦克风108A-F在计算机化会议助理106周围等距地分布，并且旨在定向地记录源自麦克风前方的声音。麦克风108g被定位在其他麦克风之间并且指向上方。

在一些实现方式中，计算机化会议助理106包括360°相机，360°相机被配置为将一个或多个光谱带(例如，可见、红外和/或近红外)的光转换成360°数字视频114或其他合适的可见、红外、近红外光谱和/或深度数字视频。在一些实现方式中，360°相机可以包括：鱼眼镜头，所述鱼眼镜头将来自计算机化会议助理106周围的所有方位角的光重定向到光传感器的单个矩阵；以及逻辑单元，所述逻辑单元用于将来自传感器的独立测量结果映射到360°数字视频114中的像素的对应矩阵。在一些实现方式中，两个或更多个协作相机可以拍摄重叠的子图像，这些子图像被一起缝合成数字视频114。在一些实现方式中，(一个或多个)相机110具有小于360°的集体视场和/或两个或多个原始视角(例如，从房间的四个角指向房间的中心的相机)。360°数字视频114被示为基本上为矩形，没有明显的几何变形，但是这不是必需的。

暂时返回图1B，计算机化会议助理106包括声源定位(SSL)机120，其被配置为基于信号112来估计(一个或多个)声音的(一个或多个)位置。图2示意性示出了SSL机120分析信号112a-g以输出由信号112a-g建模的声音的估计起源140。如上所述，信号112a-g分别由麦克风108a-g生成，并且表示由麦克风捕获的音频数据。每个麦克风具有不同的物理位置和/或指向不同的方向。远离声源和/或指向远离声源的麦克风相对于更靠近和/或指向朝向声源的麦克风将生成相对较低幅度和/或稍微相位延迟的信号112(相移)。作为示例，尽管麦克风108a和108d可以响应于相同的声音而分别产生信号112a和112d，但是当记录的声音起源于麦克风108a前方时，信号112a可能具有可测量的更大幅度。类似地，由于声音的速度导致声音到麦克风108d的飞行时间(ToF)更长，信号112d可能在信号112a之后相移。例如，声音可以作为直接声音(较短的延迟)与来自各种对象的反射和混响的混合而在麦克风阵列处被接收——其中，反射和混响与频率一起确定到达麦克风的相位。注意，反射不仅改变声音到达麦克风的方向，而且还随着声音路径的增加而延迟。SSL机120可以使用信号112a-g的幅度、相位差和/或其他参数来估计声音的起源140。SSL机120可以被配置为实现任何合适的二维或三维定位算法，包括但不限于：在先训练的人工神经网络、最大似然算法、多信号分类算法、以及跨功率谱相位分析算法。取决于在特定应用中所使用的(一种或多种)算法，SSL机120可以输出估计声音的起源140的角度、向量、坐标和/或其他参数。

如在图1B中所示的，计算机化会议助理106还包括波束形成机122。波束形成机122可以被配置为将源自特定区域(例如，0-60°弧)的声音与源自其他区域的声音隔离。在图3中所描绘的实施例中，波束形成机122被配置为隔离在六个相等大小的静态区域中的任意静态区域中的声音。在其他实现方式中，可以存在更多或更少的静态区域、动态大小的区域(例如，聚焦的15°弧)和/或动态对准的区域(例如，以9°为中心的60°区域)。可以利用任何合适的波束形成的信号处理来从所得到的波束形成的信号150中减去源自所选区域的外部的声音。在利用动态波束形成的实现方式中，可以将各个讲话者的面部或头部的位置或定位用作选择各种波束形成区域的数量、大小和中心的标准。作为一个示例，区域的数量可以被选择为等于讲话者的数量，并且每个区域可以以讲话者的位置为中心(例如，经由面部识别和/或声源定位所确定的)。在一些实现方式中，波束形成机可以被配置为独立且同时收听两个或更多个不同的区域，并且并行地输出两个或更多个不同的波束形成的信号。这样，可以独立地处理两个或更多个重叠/干扰的讲话者。

如在图1B中所示的，计算机化会议助理106包括面部定位机124和面部识别机126。如在图4中所示的，面部定位机124被配置为在数字视频114中找到候选的人类面部166(和/或由于取向远离相机而使面部被部分或完全遮挡的人类头部)，并且输出坐标系中的每个面部或头部的定位的指示。数字视频114包括表示由相机捕获的图像帧的图像数据。由面部定位机124识别出的面部或头部的定位可以包括面部或头部在二维或三维坐标系内的位置(即，场所)和/或取向。例如，图4示出了面部定位机124在示例性坐标系中找到23°处的候选FACE(1)、178°处的候选FACE(2)以及303°处的候选FACE(3)。由面部定位机124输出的候选面部166可以包括围绕所定位的面部图像的边界框的坐标、面部所在的数字图像的一部分、其他定位信息(例如23°)和/或标签(例如，“FACE(l)”)。作为另一示例，面部定位机124可以在二维或三维坐标系中为每个面部输出所述面部的位置和/或取向。面部的位置可以由坐标系的一个、两个或三个自由度(例如，X、Y、Z)中的一个或多个对应值来表示，并且取向可以由坐标系的一个、两个或三个自由度(例如，翻滚、俯仰、偏航)中的一个或多个对应值来表示。坐标系可以相对于相机的参考系，或者可以被转换为不同的参考系(例如，公共的、共享的或全局的参考系)，所述参考系可以用于基于从多个相机捕获的图像数据来识别和表示面部定位。

面部识别机164可选地被配置为通过仅分析数字视频114中已找到候选面部166的部分来确定每个候选面部166的身份168。在其他实现方式中，可以省略面部定位步骤，并且面部识别机可以分析数字视频114的较大部分以识别面部。图5示出了其中面部识别机126将候选FACE(1)识别为“Bob”、将候选FACE(2)识别为“Charlie”、并且将候选FACE(3)识别为“Alice”的示例。尽管未示出，但是每个身份168可以具有关联的置信度值，并且可以针对相同面部找到具有不同置信度值的两个或更多个不同身份168(例如，Bob(88％)、Bert(33％))。如果不能够找到至少具有阈值置信度的身份，则面部可能仍然未被识别和/或可以被赋予通用的独有身份168(例如，“Guest(42)”)。语音可以归因于这样的通用的独有身份。

当使用时，面部定位机124可以采用现有技术的和/或未来的机学习(ML)和/或人工智能(AI)技术的任何合适的组合。可以并入在面部定位机124的实现中的技术的非限制性示例包括：支持向量机、多层神经网络、卷积神经网络(例如，包括用于处理图像和/或视频的空间卷积网络)、递归神经网络(例如，长短期记忆网络)、关联记忆(例如，查找表、散列表、Bloom过滤器、神经图灵机和/或神经随机存取存储器)、无监督的空间和/或聚类方法(例如，最近邻居算法、拓扑数据分析和/或k均值聚类)和/或图形模型(例如，Markov模型、条件随机字段和/或AI知识库)。

在一些示例中，可以使用一个或多个可微函数来实现由面部定位机124所利用的方法和过程，其中，可以关于可微函数的输入和/或输出(例如，关于训练数据和/或关于目标函数)来计算和/或估计可微函数的梯度。这样的方法和过程可以至少部分地由可训练参数集来确定。因此，可以通过任何合适的训练流程来调节可训练参数，以便持续地改善面部定位机124的功能。

用于面部定位机124的训练流程的非限制性示例包括监督的训练(例如，使用梯度下降或者任何其他合适的优化方法)、零样本(zero-shot)、少样本(few-shot)、无监督的学习方法(例如，基于从无监督的聚类方法派生的类的分类)、强化学习(例如，基于反馈的深度Q学习)和/或基于生成对抗性神经网络训练方法。在一些示例中，可以关于测量多个组件的集体功能的性能的目标函数(例如，关于强化反馈和/或关于标记的训练数据)同时地训练面部定位机124的多个组件，以便改善这样的集体功能。在一些示例中，可以独立于其他组件来训练面部定位机124的一个或多个组件(例如，对历史数据的离线训练)。例如，可以经由对标记的训练数据的监督的训练以及关于目标函数来训练面部定位机124，其中，所述标记的训练数据包括带有指示在这样的图像内出现的任何(一个或多个)面部(或遮挡面部的人类头部)的标签的图像，并且所述目标函数通过面部定位机124来测量定位/布置面部/头部的与在标记的训练数据中指示的面部/头部的实际位置/定位相比的准确性、精确度和/或查全率。

在一些示例中，面部定位机124可以采用卷积神经网络，所述卷积神经网络被配置为对输入与一个或多个预定义的、随机化和/或学习的卷积内核进行卷积。通过对卷积内核与输入向量(例如，表示数字视频114)进行卷积，所述卷积神经网络可以检测与卷积内核相关联的特征。例如，基于与多个不同卷积内核的各种卷积运算，可以将卷积内核与输入图像进行卷积以检测低级视觉特征，诸如线条、边缘、拐角等。各种卷积运算的卷积输出可以由池化层(例如，最大池化)来处理，所述池化层可以检测输入图像的一个或多个最显著特征和/或输入图像的聚合显著特征，以便检测在输入图像中的特定位置处的输入图像的显著特征。池化层的池化输出可以由另外的卷积层进一步处理。另外的卷积层的卷积内核可以识别较高级别的视觉特征，诸如形状和图案，以及更一般地识别较低级别的视觉特征的空间布置。卷积神经网络的一些层可以相应地识别和/或定位面部(例如，鼻子、眼睛、嘴唇)的视觉特征。因此，卷积神经网络可以识别并且定位输入图像中的面部。尽管相对于卷积神经网络描述了前述示例，但是其他神经网络技术可能能够基于检测低级视觉特征、高级视觉特征和视觉特征的空间布置来检测和/或定位面部和其他显著特征。

面部识别机126可以采用现有技术的和/或未来的ML和/或AI技术的任何合适的组合。可以并入在面部识别机126的实现方式中的技术的非限制性示例包括：支持向量机、多层神经网络、卷积神经网络、递归神经网络、关联记忆、无监督的空间和/或聚类方法和/或图形模型。

在一些示例中，可以使用一个或多个可微函数来实现以及至少部分地由一组可训练参数来确定面部识别机126。因此，可训练参数可以通过任何合适的训练流程来调节，以便持续地改善面部识别机126的功能。

用于面部识别机126的训练流程的非限制性示例包括：监督的训练、零样本、少样本、无监督的学习方法、强化学习和/或生成对抗性神经网络训练方法。在一些示例中，可以关于测量多个组件的集体功能的性能的目标函数同时地训练面部识别机126的多个组件，以便改善这样的集体功能。在一些示例中，可以独立于其他组件来训练面部识别机126的一个或多个组件。

在一些示例中，面部识别机126可以采用被配置为检测和/或定位输入图像的显著特征的卷积神经网络。在一些示例中，可以经由对标记的训练数据的监督的训练以及目标函数来训练面部定位机124，其中，所述标记的训练数据包括带有指示在这样的图像内出现的任何(一个或多个)面部的特定身份的标签的图像，并且所述目标函数测量由面部识别机126识别面部的与在标记的训练数据中指示的面部/头部的实际身份相比的准确性、精确度和/或查全率。在一些示例中，可以经由对标记的训练数据的监督的训练以及关于目标函数来训练面部识别机126，其中，所述标记的训练数据包括带有指示成对的两幅面部图像是单个个体的图像还是两个不同个体的图像的标签的成对面部图像，并且所述目标函数测量区分单个个体对与两个不同个体对的准确性、精确度和/或查全率。

在一些示例中，面部识别机126可以被配置为通过从身份的预定义选择(例如，针对其面部图像在用于训练面部识别机126的训练数据中可用的身份的预定义选择)中选择和/或输出针对身份的置信度值来对面部进行分类。在一些示例中，面部识别机126可以被配置为例如基于面部识别机126中所采用的神经网络的隐藏层的输出来评估表示面部的特征向量。由面部识别机126评估的针对面部图像的特征向量可以表示将面部图像嵌入在由面部识别机126学习的表示空间中。因此，特征向量可以基于在表示空间中的这样的嵌入来表示面部的显著特征。

在一些示例中，面部识别机126可以被配置为登记一个或多个个体以供以后的识别。面部识别机126的登记可以包括例如基于个体的面部的图像和/或视频来评估表示个体的面部的特征向量。在一些示例中，基于测试图像的个体的识别可以基于由面部识别机126针对测试图像评估的测试特征向量与从该个体被登记以供以后识别时的在先评估的特征向量的比较。可以以任何合适的方式对测试特征向量与来自登记的特征向量进行比较，例如，使用相似度的测量(诸如余弦或内积相似度)、和/或通过无监督的空间和/或聚类方法(例如，近似k最邻近方法)。将测试特征向量与来自登记的特征向量进行比较可能适合于例如基于比较由向量表示的面部的显著特征来评估由两个向量表示的个体的身份。

如在图1B中所示的，计算机化会议助理106包括话音识别机128。话音识别机128类似于面部识别机126，因为其也试图识别个体。然而，与在视频图像上训练并且操作的面部识别机126不同，语音识别机在音频信号(例如，波束形成的信号150和/或(一个或多个)信号112)上进行训练并且操作。上文所描述的ML和AI技术可以由话音识别机128来使用。语音识别机输出话音ID 170，可选地具有对应的置信度(例如，Bob(77％))。

图6示意性示出了用于计算机化会议助理106的上述组件的示例性区分框架600。尽管下文参考计算机化会议助理106描述了区分框架600，但是可以使用不同的硬件、固件和/或软件组件(例如，不同的麦克风和/或相机放置和/或配置)来实现该区分框架。此外，SSL机120、波束形成机122、面部定位机124和/或面部识别机128可以在不同的传感器融合框架中使用，所述传感器融合框架被设计为将语音话语与正确的讲话者相关联。

在所图示的实现方式中，麦克风108将信号112提供给SSL机120和波束形成机122，并且SSL机将起源140输出到区分机602。相机110向面部定位机124和面部识别机126提供360°数字视频114。所述面部定位机将候选面部/头部166(例如，23°)的定位(位置和/或取向)传递给波束形成机132，所述波束形成机可以利用所述定位来选择已经识别出讲话者的期望的区域。如先前所描述的，候选面部/头部的定位可以指代在二维或三维坐标系中候选面部/头部的位置和/或候选面部/头部的取向中的一个或多个。波束形成机122将波束形成的信号150传递给区分机602和话音识别机128，话音识别机128将话音ID 170传递给区分机602。面部识别机128将具有候选面部头部(例如23°)的对应定位的身份168(例如，“Bob”)输出到区分机。尽管未示出，但是该区分机可以接收其他信息，并且使用这样的信息来将语音话语归因于正确的讲话者。

在至少一些实现方式中，区分机602是传感器融合机，所述传感器融合机被配置为使用各种接收到的信号来将记录的语音与适当的讲话者相关联。这样的信号可以包括从图像数据识别出的每个人的面部/头部的定位，包括该面部的位置(即，场所)和/或取向。在一个非限制性示例中，可以采用以下算法：

从开始到时间t的视频输入(例如，360°数字视频114)被表示为V_1:t来自N个麦克风的音频输入(例如，信号112)被表示为

区分机602通过使以下内容最大化来解决谁(WHO)在什么时间(WHEN)和地点(WHERE)正在讲话：

其中，是由/>

计算出的。

其中，是话音ID 170，其采用N个通道输入，并且根据候选面部166的角度来选择一个波束形成的信号150；

是起源140，其采用N个信道输入并且预测哪个角度最可能具有声音；

P(who，angle|V_1：t)是身份168，其以视频114作为输入并且预测每个面部在每个角度出现的概率。

以上框架可以适于使用任何适当的处理策略，包括但不限于以上讨论的ML/AI技术。使用上述框架，一个面部在找到的角度处的概率通常是占优的，例如，Bob的面部在23°处的概率为99％，而他的面部在其他所有角度处的概率几乎为0％。然而，可以使用其他合适的技术，诸如使用不能个体地提供物理环境的360度捕获的多个相机时，或者这样的相机不在物理环境中居中或者不与麦克风阵列协作时。

图7是区分机602的示例性输出的视觉表示。在图6中，垂直轴被用于表示谁(例如，Bob)正在讲话；横轴表示讲话者正在讲话的时间(例如，30.01s-34.87s)；并且深度轴表示讲话者正在哪里(例如23°)讲话。区分机602可以使用该WHO/WHEN/WHERE信息来利用标签608标记正在分析的(一个或多个)音频信号606的对应片段604。片段604和/或对应的标记可以以任何合适的格式从区分机602输出。所述输出在N个讲话者之间的对话期间将语音与特定讲话者有效地关联，并且允许将与每个语音话语相对应的音频信号(带有WHO/WHEN/WHERE标签/元数据)用于大量下游操作。一种非限制性的下游操作是会话转录，如下文更详细讨论的。作为另一示例，AI助理能够使用正确的讲话者来准确地归因于语音话语，以识别谁在讲话，由此减少了讲话者利用关键词(例如，“Cortana”)向AI助理讲话的必要性。

暂时返回图1B，计算机化会议助理106可以包括语音识别机130。如在图8中所示的，语音识别机130可以被配置为将记录的语音的音频信号(例如，信号112、波束形成的信号150、信号606和/或片段604)转换成文本800。在图8所图示的场景中，语音识别机130将信号802转换为文本：“您想玩游戏吗？”

语音识别机130可以采用现有技术的和/或未来的自然语言处理(NLP)、AI和/或ML技术的任何适当的组合。可以并入在语音识别机130的实现方式中的技术的非限制性示例包括：支持向量机、多层神经网络、卷积神经网络(例如，包括用于处理自然语言句子的时间卷积神经网络)、词嵌入模型(例如，GloVe或Word2Vec)、递归神经网络、关联记忆，无监督的空间和/或聚类方法、图形模型、和/或自然语言处理技术(例如，标记化、词干、成分句法和/或依赖性解析和/或意图识别)。

在一些示例中，可以使用一个或多个可微函数来实现以及通过一组可训练的参数来确定语音识别机130。因此，所述可训练参数可以通过任何合适的训练流程来调节，以便持续地改善语音识别机130的功能。

用于语音识别机130的训练流程的非限制性示例包括：监督的训练、零样本、少样本、无监督的学习方法、强化学习和/或生成对抗性神经网络训练方法。在一些示例中，可以关于测量多个组件的集体功能的性能的目标函数同时地训练语音识别机130的多个组件，以便改善这样的集体功能。在一些示例中，可以独立于其他组件来训练语音识别机120的一个或多个组件。在示例中，可以经由对标记的训练数据的监督的训练以及关于目标函数来训练语音识别机130，其中，所述标记的训练数据包括被注释为指示与语音音频相对应的实际词汇数据(例如，词语、短语和/或文本形式的任何其他语言数据)的语音音频，所述目标函数测量正确地识别与语音音频相对应的词汇数据的准确性、精确度和/或查全率。

在一些示例中，语音识别机130可以使用AI和/或ML模型(例如，LSTM和/或时间卷积神经网络)来以计算机可读格式表示语音音频。在一些示例中，语音识别机130可以将语音音频输入表示为由语音音频模型和词语嵌入模型(例如，针对GloVe向量的潜在表示空间，和/或针对Word2Vec向量的潜在表示空间)共享的学习的表示空间中的词语嵌入向量。因此，通过在学习的表示空间中表示语音音频输入和词语，语音识别机130可以将表示语音音频的向量与表示词语的向量进行比较，以针对语音音频输入来评估最接近的词语嵌入向量(例如，基于余弦相似性和/或近似k最近邻方法或者任何其他合适的比较方法)。

在一些示例中，语音识别机130可以被配置为将语音音频区分成词语(例如，使用经训练以识别词语边界的LSTM，和/或基于相邻词语之间的静音或幅度差异来分离词语)。在一些示例中，语音识别机130可以对个体词语进行分类以评估每个个体词语的词法数据(例如，字符序列、词语序列、n元语法)。在一些示例中，语音识别机130可以采用依赖性和/或成分句法解析来导出针对词法数据的解析树。在一些示例中，语音识别机130可以操作AI和/或ML模型(例如，LSTM)以将在学习的表示空间中的语音音频和/或表示语音音频的向量转换成词汇数据，其中，转换序列中的词语是基于当前时间的语音音频，并且还基于AI和/或ML模型的表示序列中来自先前时间的先前词语的内部状态。以这种方式将词语从语音音频转换成词法数据可以捕获可能对语音识别提供有用信息的词语之间的关系，例如，基于先前词语的上下文来识别潜在歧义的词语，和/或基于先前词语的上下文来识别话语错误的词语。因此，即使当这样的语音可能包括歧义性、错误话语等时，语音识别机130也能够稳健地识别语音。

可以针对个体、多个个体和/或群体来训练语音识别机130。考虑到群体内可能更频繁出现的可能的独特的语音特性(例如，语音的不同语言、口音、词汇和/或可能因群体的成员而异的任何其他独特的语音特性)，相对于个体群体训练语音识别机130可以使语音识别机130稳健地按群体的成员来识别语音。相对于个体和/或相对于多个个体训练语音识别机130可以进一步调整对语音的识别，以考虑到个体和/或多个个体的语音特性的另外的差异。在一些示例中，可以关于个体的不同群体来训练不同的语音识别机(例如，语音识别机(A)和语音识别(B))，由此使每个不同的语音识别机在考虑到不同群体之间可能不同的语音特性的情况下按不同群体的成员来稳健地识别语音。

标记的和/或部分标记的音频片段可以不仅被用于确定多个N个讲话者中的哪个讲话者负责话语，而且还可以将话语转换为用于下游操作(诸如转录)的纹理表示。图9示出了非限制性示例，其中，计算机化会议助理106使用麦克风108和相机110来确定特定的声音流是来自Bob的语音话语，Bob坐在桌子104周围的23°处并且在说：“您想要玩游戏吗？”Charlie和Alice的身份和位置也得到了解决，从而来自那些讲话者的语音可以类似地归因于并且转换成文本。

图10示出了示例性会议转录1000，其包括按时间次序归属于正确的讲话者的文本。转录可选地可以包括其他信息，如每个语音话语的时间和/或每个话语的讲话者的位置。在不同语言的讲话者参于会议的场景中，可以将文本转换成其他语言。例如，即使一个或多个讲话者最初以不同的语言讲话，也可以向转录的每个读者呈现具有以该读者优选的语言的所有文本的转录版本。可以实时地更新根据本公开而生成的转录，使得能够将新文本添加到具有响应于每个新话语的适当的讲话者属性的转录。

图11示出了非限制性框架1100，其中，语音识别机130a-n在区分机602的下游。每个语音识别机130可选地可以针对特定的个体讲话者(例如Bob)或讲话者种类(例如，中文讲话者或者带有中文口音的英文讲话者)进行调谐。在一些实施例中，用户简档可以指定适合于特定用户的语音识别机(或者其参数)，并且当识别出用户时(例如，经由面部识别)，可以使用语音识别机(或其参数)。以这种方式，可以为特定的讲话者选择以特定的语法和/或声学模型调谐的语音识别机。此外，因为可以独立于所有其他讲话者的语音来处理来自每个不同讲话者的语音，所以可以即时并行地动态地更新所有讲话者的语法和/或声学模型。在图11所图示的实施例中，每个语音识别机可以接收用于对应讲话者的片段604和标签608，并且每个语音识别机可以被配置为输出带有标签608的文本800以用于下游操作，诸如转录。

图12示出了非限制性框架1200，其中，语音识别机130a-n在区分机602的上游。在这样的框架中，除了或代替片段604之外，区分机602可以初始地将标签608应用于文本800。此外，当解决哪个讲话者负责每种话语时，区分机可以将文本800的自然语言属性视为额外的输入信号。

图13是描绘包括相关联的方法1370的示例性处理管线1300的流程图。处理管线1300和相关联的方法1370可以由计算系统执行或者以其他方式实现，诸如在本文中参考图1B所描述的，作为非限制性示例、

针对监视物理环境的两个或更多个麦克风(1312、1314、1316等)的麦克风阵列1310中的每个麦克风，方法1370包括在1372处接收由麦克风捕获的音频数据，并且在1374处转换由该麦克风捕获的音频数据以获得以多个频率间隔离散化的音频数据的频域表示。音频数据可以表示由麦克风阵列的每个麦克风捕获的音频数据流的时间间隔(即，时间段)。在图13内，方法1370的操作1372和操作1374可以形成音频预处理1320的一部分。作为非限制性示例，可以通过SSL、波束形成、语音识别和/或本文公开的语音识别机中的一个或多个来执行或者以其他方式实现音频预处理1320。

被应用于声学数据的变换可以是快速傅立叶变换或其他合适的变换。使x(ω)表示声学数据x的频域表示，其中，ω是频率。当在频域中表示离散-时间声学数据时，麦克风的频率范围以多个K间隔(也被称为频段)离散。每个频带由预定带宽B_k和中心频率ω_k定义，其中，1≤k≤K，其由所述变换来确定。可以将频带选择为足够窄(具有足够小的B_k)以支持在本文中所公开的特定于频率的音频源定位技术。

对于监视物理环境的一个或多个相机(1332、1334、1336等)的相机阵列1330的每个相机，方法1370包括在1376处接收由该相机捕获的图像数据，并且在1378处基于图像数据相对于参考坐标系来确定由该相机捕获的每个人类面部/头部的定位。每个人类面部/头部的定位可以包括该面部/头部相对于参考坐标系的位置和取向。在图13内，方法1370的操作1376和操作1378可以形成图像预处理1340的一部分。作为非限制性示例，图像预处理1340可以由在本文中所公开的一个或多个面部定位和/或面部识别机来执行。例如，可以通过使用在先训练的面部定位分类器基于所述图像数据来确定每个人类面部的位置，所述在先训练的面部定位分类器参考或形成先前描述的面部定位机124的一部分。

如先前所描述的，取决于实现方式，每个人类面部/头部的定位可以在三维或二维坐标系内。例如，可以为图像数据内由相机捕获的每个人类面部分配两个自由度(2DOF)或三个自由度(3DOF)坐标空间(例如，X、Y、Z)中的位置，以及2DOF或3DOF坐标空间(例如，倾斜、偏航、滚动)中的取向。可以相对于人类面部的一个或多个特征(诸如鼻子、眼睛、眉毛、耳朵、下巴等)以及由于主体背对相机造成对这样的特征的遮挡(例如，由头部的其他部分)，来定义人类面部的位置和取向。共同地，每个人类面部/头部的定位可以在参考坐标系内的6DOF坐标空间中表示。在至少一些实现方式中，所述参考坐标系可以关于捕获图像数据的相机。然而，在多相机实现方式中，可以使用相机阵列中的两个或更多个相机相对于彼此的已知定位将特定相机所捕获的每个面部/头部的相对定位转换为针对每个相机的公共、共享或全局坐标系。

在1380处，方法1370包括将输入数据提供给在先训练的音频源本地化分类器1350。在至少一些实现方式中，分类器1350可以参考或者形成先前描述的SSL机120的一部分。所述输入数据包括在1374处由麦克风阵列的每个麦克风捕获的音频数据的频域表示，以及在1378处由相机阵列的每个相机捕获的每个人类面部/头部的定位。每个人类面部/头部的定位可以表示候选音频源，所述候选音频源具有用于分类器的相对于针对音频数据的特定时间间隔的音频数据的该音频源的基于位置和取向的向量。在至少一些实现方式中，每个候选音频源可以被建模为位于每个人类面部的嘴巴的定位处的点源，其中，声源的方向从嘴巴的位置处的面部向外(以预定角度——例如，表面法线)。

声源定位的常规方案使用麦克风阵列，并且将接收到的信号与针对每个可能的声音方向的预期信号进行比较。然后，选择在理想(数学)模型与接收到信号之间误差最小的方向。这种方案的潜在问题是来自房间中的物体(例如，桌子上的膝上型计算机、墙壁、桌子)的反射会导致音频信号从各个方向到达——有时这会在估计声音方向时造成显著误差。如果讲话者未朝向麦克风阵列，则这一点甚至更为显著。作为该常规方案的替代，分类器1350使用相机和麦克风阵列数据两者来比较与每个面部/头部的定位相对应的音频源的预测音频信号与阵列的每个麦克风在多个频率间隔的每个频率或频率间隔处捕获的实际音频信号。分类器的输出基于面部/头部定位和每个麦克风的接收到的音频信号的频谱，来识别哪个面部更可能是主动讲话者。代替使用声音方向的理想的预期音频信号的数学模型，分类器将使用经训练的数据基于相对于麦克风阵列的面部位置和方向(例如，头部取向)在输入数据与每个面部是主动讲话者的可能性之间进行映射。

分类器1350可以如在1390处示意性地指示的那样被预先地训练。分类器150可以被称为分类器机，诸如先前参考图1B的其他机所描述的。例如，分类器1350可以形成先前所描述的SSL机的一部分并且并入各方面。在商业部署的实现方式的上下文内，在对分类器1350的训练之后，可以将该分类器的实例(和其他程序组件)作为计算机程序的组件分发给最终用户。

作为在1390处的训练的非限制性示例，可以通过向分类器提供从多种物理环境(例如，房间配置)收集的相对较大的数据集来对分类器1350进行训练，所述数据集包含在物理环境内具有多种定位的一些列不同物理对象。在数据收集期间，个体人类主体可以大声讲话，他或她的面部具有由相机捕获的各种(例如，随机的)定位。针对音频信号的每个频率间隔由麦克风捕获的音频数据的预测的音频信号与测量的音频信号之间的差异所表示的误差可以被用作训练期间被提供给分类器的特征，以及人类主体的面部/头部相对相机的定位。可以由分类器1350基于针对音频数据的时间间隔的频域表示的多个频率间隔中的每个频率间隔识别出的估计的置信度的组合来识别音频源。使用基于并入到分类器中的深度学习的机学习(例如，卷积神经网络或者在本文中所公开的其他机学习/AI系统)，分类器针对输入数据的给定集合学习音频信号从人类主体的面部到达的概率。例如，通过面部检测获得的面部位置以及通过在先训练的分类器获得的面部/头部取向为音频数据生成多个候选音频源，所述音频数据可以被馈送到分类器1350的下游算法，分类器1350在多个频率间隔处从麦克风阵列接收音频数据作为输入，确定该音频数据是否与每个候选音频源相匹配(例如，在由一个或多个相机捕获的视频中)，并且选择分数最高(例如，最大置信度/概率)的候选。如先前所描述的，分类器的该下游算法可以在来自具有各种不同配置的许多房间或其他物理环境的数据上训练，在所述配置内，大声讲话以生成音频数据的人位于各种不同的面部位置和面部/头部取向。先前参考SSL机或在本文中所公开的其他机描述了这样的训练的示例。

在1382处，方法1370包括：基于所述输入数据从分类器接收从一个或多个候选音频源识别出被估计为针对音频数据的时间间隔音频数据所源自的人类面部的音频源的指示。作为非限制性示例，分类器1350可以输出针对多个频率间隔的每个频率间隔和/或针对音频源的多个频率间隔的组合特定人类面部是音频数据的音频源的估计出的置信度值或概率值。例如，分类器1350可以基于针对频域表示的多个频率间隔中的每个频率间隔识别出的估计的置信度的组合来识别音频源。用于训练的频率间隔可以是在分类器识别音频数据的可能源的后续部署的实现方式中使用的相同频率间隔。对于分类器1350针对由相机阵列的相机捕获的每个面部输出置信度或概率值的实现方式，在1360处的后处理可以将具有最大置信度或概率的人类面部识别为针对每个频率间隔或者针对音频源的多个频率间隔的组合的音频数据的音频源。替代地，分类器1350可以基于个体频率间隔或者针对音频源的多个频率间隔的组合使用在分类器内部施加的阈值来识别哪个人类面部被估计为音频数据的源。

作为非限制性示例，在1360处的后处理还可以包括在1384处执行在本文中所公开的语音区分、识别、转录和/或音频波束形成技术中的任何一种。作为示例，在1384处的后处理可以包括将识别出的音频源归属于针对音频数据的时间间隔的音频数据所源自的身份。在至少一些实现方式中，先前所描述的区分机602可以将识别出的音频源归因于人类讲话者的身份。针对每个人类面部，例如，可以通过使用在先训练的面部识别分类器基于图像数据来确定人类面部的身份。该在先训练的面部识别分类器可以参考或者形成先前所描述的面部识别机126的一部分。替代地或另外地，例如，可以通过使用在先训练的语音识别分类器基于音频数据来确定识别出的音频源的身份。该在先训练的语音识别分类器可以参考或形成先前描述的话音识别机128的一部分。在这些示例的每个示例中，将识别出的音频源归因于所述身份可以包括将指示身份的数据标签与音频数据相关联或者对其进行存储。数据标签(指示讲话者的身份——WHO)可以被存储或者以其他方式关联于音频数据作为元数据。如先前所描述的，指示识别出的音频源的计时(指示WHEN的音频数据的时间间隔)和定位(位置和/或取向——WHERE)的其他合适的数据标签可以被存储或关联于音频数据作为元数据。

作为在1384处的后处理的另一示例，所述方法可以包括生成波束形成器，所述波束形成器被配置为通过将被估计为音频数据所源自的人类面部的识别出的音频源的位置和/或取向作为目标，从音频数据中去除噪声和干扰。例如，这样的波束形成可以由先前所描述的波束形成机122来执行。在波束形成的上下文内，被估计为音频数据所源自的人类面部/头部的音频源的定位可以替代或增强由波束形成器用于识别感兴趣信号和/或噪声/干扰信号的源的声学成像技术。作为非限制性示例，可以基于每频率间隔以针对识别出的音频源的感兴趣信号的单位增益响应和针对每个干扰源的空间零来生成波束形成器。作为非限制性示例，所生成的波束形成器可以是最小方差定向响应(MVDR)波束形成器，或者是确定性波束形成器，诸如最小二乘法波束形成器或确定性最大似然波束形成器。波束形成机还可以被配置为生成声学耙式(rake)接收机，该接收机将感兴趣信号与一个或多个反射相组合。相对于感兴趣信号的相移可以被施加到每个反射，从而实现相长干涉，并且感兴趣信号和每个反射之和的能量被最大化。因此，声学耙式接收机可以增加感兴趣信号的信噪比。

在本文中所描述的语音区分、识别和转录以及波束形成技术可以与一个或多个计算设备的计算系统绑定。特别地，这样的方法和过程可以被实现为计算机应用程序或服务、应用编程接口(API)、库和/或其他计算机程序产品。

图1B示意性示出了能够实施上文所描述的方法、过程和/或处理策略中的一项或多项的计算机化会议助理106的非限制性实施例。在图1B中以简化形式示出了计算机化会议助理106。计算机化会议助理106可以采用以下形式：一台或多台独立的麦克风/相机计算机、物联网(IoT)设备、个人计算机、平板计算机、家庭娱乐计算机、网络计算设备、游戏设备、移动计算设备、移动通信设备(例如，智能电话)和/或在其他实现方式中的其他计算设备。通常，在本文中所描述的方法和过程可以适用于具有多种不同的麦克风和/或相机配置的多种不同的计算系统。

计算机化会议助理106包括逻辑系统180和存储系统182。计算机化会议助理106可以可选地包括(一个或多个)显示器184、输入/输出(I/O)186和/或在图1B中未示出的其他组件。

逻辑系统180包括被配置为执行指令的一个或多个物理设备。例如，所述逻辑系统可以被配置为执行作为一个或多个应用、服务、程序、例程、库、对象、组件、数据结构或其他逻辑构造的一部分的指令。可以实现这样的指令以执行任务、实现数据类型、转换一个或多个组件的状态、实现技术效果、或者以其他方式达到期望的结果。

所述逻辑系统可以包括被配置为执行软件指令的一个或多个处理器。另外地或替代地，所述逻辑系统可以包括被配置为执行硬件或固件指令的一个或多个硬件或固件逻辑电路。所述逻辑系统的处理器可以是单核或多核的，并且在其上执行的指令可以被配置用于顺序、并行和/或分布式处理。所述逻辑系统的个体组件可选地可以分布在两个或更多个单独的设备之间，这些设备可以远程地定位和/或被配置用于协调处理。所述逻辑系统的各方面可以由以云计算配置来配置的可远程访问的联网计算设备所虚拟化并执行。

存储系统182包括一个或多个物理设备，其被配置为保存由逻辑系统能执行以实现在本文中所描述的方法和过程的指令。当实现这样的方法和过程时，存储系统182的状态可以被转换——以例如保存不同的数据。

存储系统182可以包括可移动和/或内置设备。存储系统182可以包括光学存储器(例如，CD、DVD、HD-DVD、蓝光光盘等)、半导体存储器(例如，RAM、EPROM、EEPROM等)和/或磁存储器(例如，硬盘驱动器、软盘驱动器、磁带驱动器、MRAM等)，等等。存储系统182可以包括易失性、非易失性、动态、静态、读/写、只读、随机存取、顺序存取、位置可寻址、文件可寻址和/或内容可寻址的设备。

将意识到，存储系统182包括一个或多个物理设备，而不仅仅是物理设备在有限的持续时间内不保持的电磁信号、光信号等。

逻辑系统180和存储系统182的各方面可以被集成到一个或多个硬件逻辑组件中。这样的硬件逻辑组件可以包括例如现场可编程门阵列(FPGA)、程序和应用专用集成电路(PASIC/ASIC)、程序和应用专用标准产品(PSSP/ASSP)、片上系统(SOC)和复杂可编程逻辑器件(CPLD)。

如在图1B中所示的，逻辑系统180和存储系统182可以协作以实例化SSL机120、波束形成机122、面部定位机124、面部识别机126、话音识别机128、语音识别机130和体验机132。如在本文中所使用的，术语“机”被用于共同地指代硬件、固件、软件和/或协作以提供所描述的功能的任何其他组件的组合。换言之，“机”从来都不是抽象的思想，而总是具有有形形式。赋予特定机其功能的软件和/或其他指令可选地另存为在合适的存储设备上的未执行模块，并且可以经由网络通信和/或保存模块的物理存储设备的转移来传输这样的模块。

当被包含时，(一个或多个)显示器184可以被用于呈现由存储系统182所保存的数据的视觉表示。所述视觉表示可以采用图形用户界面(GUI)的形式。作为一个示例，转录1000可以可视地呈现在显示器184上。由于在本文中所描述的方法和过程改变了由存储机所保存的数据，并且因此改变了存储机的状态，所以(一个或多个)显示器184的状态可以同样地被转换以视觉地表示基础数据中的变化。例如，可以将新的用户话语添加到转录1000。(一个或多个)显示器184可以包括利用实际上任何类型的技术的一个或多个显示设备。这样的显示设备可以在共享的外壳中与逻辑系统180和/或存储系统182相组合，或者这样的显示设备可以是外围显示设备。

当被包含时，输入/输出(I/O)186可以包括一个或多个用户输入设备或者与之交互，诸如键盘、鼠标、触摸屏或游戏控制器。在一些实施例中，所述输入子系统可以包括所选择的自然用户输入(NUI)组件或者与之交互。这样的组件可以是集成的或外围的，并且输入动作的转导和/或处理可以在板上或板外进行。示例性NUI组件可以包括用于语音和/或声音识别的麦克风；用于机视觉和/或手势识别的红外、彩色、立体和/或深度相机；用于运动检测和/或意图识别的头部跟踪器、眼睛跟踪器、加速度计和/或陀螺仪；以及用于评估大脑活动的电场感应组件。

此外，I/O 186可选地可以包括通信子系统，所述通信子系统被配置为将计算机化会议助理106与一个或多个其他计算设备通信地耦合。所述通信子系统可以包括与一种或多种不同通信协议兼容的有线和/或无线通信设备。作为非限制性示例，所述通信子系统可以被配置用于经由无线电话网络或者有线或无线局域网或广域网进行通信。在一些实施例中，所述通信子系统可以允许计算机化会议助理106经由诸如互联网的网络向其他设备发送消息和/或从其他设备接收消息。

在本公开的示例中，由计算系统执行的方法包括：针对监视物理环境的一个或多个相机的相机阵列中的每个相机：接收由相机捕获的图像数据，以及基于图像数据来确定由该相机捕获的每个人类面部的定位，该每个人类面部的定位包括所述人类面部或头部相对于参考坐标系的位置和取向；针对监视物理环境的两个或更多个麦克风的麦克风阵列中的每个麦克风：接收由该麦克风捕获的音频数据，以及变换由麦克风捕获的音频数据以获得在多个频率间隔中离散化的、音频数据的频域表示；向在先训练的音频源定位分类器提供输入数据，所述输入数据包括：由麦克风阵列的每个麦克风捕获的音频数据的频域表示，以及由相机阵列的每个相机捕获的每个人类面部或头部的定位，其中，每个人类面部或头部的定位表示候选音频源；以及基于输入数据从音频源定位分类器接收来自一个或多个候选音频源中的、被估计为该音频数据所源自的人类面部或头部的识别出的音频源的指示。在本文中所公开的该示例或任何其他示例中，由音频源定位分类器基于针对频域表示的多个频率间隔中的每个频率间隔识别出的估计的置信度的组合来识别所述识别出的音频源。在本文中所公开的该示例或者任何其他示例中，所述方法还包括：将识别出的音频源归因于音频数据所源自的身份。在本文中所公开的该示例或任何其他示例中，所述方法还包括：针对每个人类面部或头部，通过使用在先训练的面部识别分类器，基于图像数据来确定人类面部的身份；其中，将识别出的音频源归因于所述身份包括：将指示该身份的数据标签与音频数据相关联。在本文中所公开的该示例或任何其他示例中，所述方法还包括：通过使用在先训练的语音识别分类器，基于音频数据来确定识别出的音频源的身份；其中，将识别出的音频源归因于所述身份包括：将指示该身份的数据标签与音频数据相关联。在本文中所公开的该示例或任何其他示例中，将识别出的音频源归因于所述身份包括：将指示该身份的数据标签存储为音频数据的元数据。在本文中所公开的该示例或任何其他示例中，所述方法还包括：存储另一数据标签，所述另一数据标签指示被估计为音频数据所源自的人类面部或头部的识别出的音频源的定位的位置和/或取向。在本文中所公开的该示例或任何其他示例中，所述音频数据表示由麦克风阵列的每个麦克风所捕获的音频数据流的时间间隔；以及识别出的音频源的指示是由音频源定位分类器针对时间间隔来估计的。在本文中所公开的该示例或任何其他示例中，所述方法还包括：生成波束形成器，所述波束形成器被配置为通过将被估计为音频数据所源自的人类面部或头部的识别出的音频源的位置和/或取向定为目标，从所述音频数据中去除噪声和干扰。在本文中所公开的该示例或任何其他示例中，以六个自由度确定每个人类面部或头部相对于参考坐标系的定位，包括三个自由度的人类面部或头部的位置以及三个自由度的人类面部或头部的取向。

在本公开的另一示例中，一种计算系统，包括：一个或多个计算设备，其被编程为：接收由监视物理环境的相机捕获的图像数据；基于所述图像数据来确定由相机捕获的每个人类面部的定位，每个人类面部的所述定位包括该人类面部相对于参考坐标系的位置和取向；接收由监视物理环境的两个或更多个麦克风的麦克风阵列中的每个麦克风捕获的音频数据；针对麦克风阵列的每个麦克风，变换由所述麦克风捕获的音频数据以获得在多个频率间隔中离散化的、音频数据的频域表示；向在先训练的音频源定位分类器提供输入数据，所述输入数据包括：由麦克风阵列的每个麦克风捕获的音频数据的频域表示，以及

由相机阵列的每个相机捕获的每个人类面部的定位，其中，每个人类面部的所述定位表示候选音频源；以及基于所述输入数据从所述音频源定位分类器接收来自一个或多个候选音频源中的、被估计为所述音频数据所源自的所述人类面部的识别出的音频源的指示。在本文中所公开的该示例或任何其他示例中，相机是监视物理环境的相机阵列的多个相机之一；并且针对相机阵列的每个相机，所述输入数据还包括由相机阵列的每个相机捕获的每个人类面部的定位，其中，每个人类面部的定位表示候选音频源。在本文中所公开的该示例或任何其他示例中，所述一个或多个计算设备还被编程为：将识别出的音频源归因于音频数据所源自的身份。在本文中所公开的该示例或任何其他示例中，所述一个或多个计算设备还被编程为：针对每个人类面部，通过使用在先训练的面部识别分类器基于所述图像数据来确定人类面部的身份；以及通过将指示身份的数据标签与音频数据相关联而将识别出的音频源归因于该身份。在本文中所公开的该示例或任何其他示例中，所述一个或多个计算设备还被编程为：通过使用在先训练的语音识别分类器，基于所述音频数据来确定识别出的音频源的身份；以及通过将指示身份的数据标签与音频数据相关联而将识别出的音频源归因于所述身份。在本文中所公开的该示例或任何其他示例中，所述一个或多个计算设备还被编程为：通过将指示所述身份的数据标签存储为音频数据的元数据，来将识别出的音频源归因于所述身份。在本文中所公开的该示例或任何其他示例中，所述音频数据表示由麦克风阵列的每个麦克风捕获的音频数据流的时间间隔；以及识别出的音频源的指示是由音频源定位分类器针对时间间隔而估计的。在本文中所公开的该示例或任何其他示例中，所述一个或多个计算设备还被编程为：生成波束形成器，所述波束形成器被配置为通过将被估计为所述音频数据所源自的人类面部的识别出的音频源的位置和/或取向定为目标，从音频数据中去除噪声和干扰。在本文中所公开的该示例或任何其他示例中，所述计算系统还包括麦克风阵列和相机，所述麦克风阵列和相机与计算系统的至少一个计算设备包含在外壳内。

在本公开的另一示例中，一种物品包括：数据存储设备，其上存储有可由一个或多个计算设备执行的指令，用于：接收由监视物理环境的相机阵列的两个或更多个相机捕获的图像数据；基于所述图像数据来确定由所述相机阵列捕获的每个人类面部或头部的定位，所述每个人类面部或头部的定位包括人类面部或头部相对于参考坐标系的位置和取向；接收由监视物理环境的两个或更多个麦克风的麦克风阵列中的每个麦克风捕获的音频数据流；对于麦克风阵列中的每个麦克风，变换由该麦克风捕获的音频数据以获得在多个频率间隔中离散化的、音频数据的频域表示；向在先训练的音频源定位分类器提供输入数据，所述输入数据包括：由麦克风阵列的每个麦克风捕获的音频数据的频域表示，以及由相机阵列的每个相机捕获的每个人类面部或头部的定位，其中，每个人类面部或头部的定位表示候选音频源；基于输入数据，从音频源定位分类器接收来自一个或多个候选音频源中的、被估计为针对时间间隔该音频数据所源自的人类面部或头部的识别出的音频源的指示；以及通过将知识身份的数据标签存储为音频数据的源数据，来将识别出的音频源归因于音频数据所源自的身份。

将理解的是，在本文中所描述的配置和/或方法本质上是示例性的，并且这些特定的实施例或示例不应当被视为限制性的，因为可能有多种变型。在本文中所描述的特定例程或方法可以表示任何数量的处理策略中的一个或多个。这样，可以按照所示和/或所描述的序列、以其他序列、并行执行所示出和/或描述的各种动作或进行省略。同样，可以改变上述过程的次序。

本公开的主题包括本文所公开的各种过程、系统和配置和其他特征、功能、动作和/或属性的所有新颖的和非显而易见的组合和子组合，以及其任何和所有等同形式。

Claims

1.一种由计算系统执行的方法，所述方法包括：

针对监视物理环境的一个或多个相机的相机阵列中的每个相机：

接收由所述相机捕获的图像数据，以及

基于所述图像数据来确定由所述相机捕获的每个人类面部的定位，每个人类面部的所述定位包括所述人类面部相对于参考坐标系的位置和取向；

针对监视所述物理环境的两个或更多个麦克风的麦克风阵列中的每个麦克风：

接收由所述麦克风捕获的音频数据，以及

变换由所述麦克风捕获的所述音频数据以获得在多个频率间隔中离散化的、所述音频数据的离散-时间频域表示，所述多个频率间隔中的每个频率间隔定义所述音频数据的相应频带；

向在先训练的音频源定位分类器提供输入数据，所述输入数据包括：

由所述麦克风阵列中的每个麦克风捕获的所述音频数据的所述频域表示，以及

由所述相机阵列中的每个相机捕获的每个人类面部的所述定位，其中，每个人类面部的所述定位表示候选音频源；以及

基于所述输入数据从所述音频源定位分类器接收来自一个或多个候选音频源中的、被估计为所述音频数据所源自的所述人类面部的识别出的音频源的指示。

2.根据权利要求1所述的方法，其中，所述识别出的音频源是由所述音频源定位分类器基于针对所述频域表示的所述多个频率间隔中的每个频率间隔识别出的估计的置信度的组合来识别的。

3.根据权利要求1所述的方法，还包括：

将所述识别出的音频源归因于所述音频数据所源自的身份。

4.根据权利要求3所述的方法，还包括：

针对每个人类面部，通过使用在先训练的面部识别分类器基于所述图像数据来确定所述人类面部的身份；并且

其中，将所述识别出的音频源归因于所述身份包括：将指示所述身份的数据标签与所述音频数据相关联。

5.根据权利要求3所述的方法，还包括：

通过使用在先训练的语音识别分类器基于所述音频数据来确定所述识别出的音频源的身份；并且

6.根据权利要求3所述的方法，其中，将所述识别出的音频源归因于所述身份包括：将指示所述身份的数据标签存储为所述音频数据的元数据。

7.根据权利要求6所述的方法，还包括：

存储另一数据标签，所述另一数据标签指示被估计为所述音频数据所源自的所述人类面部的所述识别出的音频源的所述定位的所述位置和/或所述取向。

8.根据权利要求1所述的方法，其中，所述音频数据表示由所述麦克风阵列中的每个麦克风捕获的音频数据流的时间间隔；并且

其中，所述识别出的音频源的所述指示是由所述音频源定位分类器针对所述时间间隔来估计的。

9.根据权利要求1所述的方法，还包括：

生成波束形成器，所述波束形成器被配置为通过将被估计为所述音频数据所源自的所述人类面部的所述识别出的音频源的所述位置和/或所述取向定为目标，从所述音频数据中去除噪声和干扰。

10.根据权利要求1所述的方法，其中，每个人类面部相对于所述参考坐标系的所述定位是以六个自由度来确定的，所述六个自由度包括三个自由度的人类面部或头部的所述位置以及三个自由度的人类面部或头部的所述取向。

11.一种计算系统，包括：

一个或多个计算设备，其被编程为：

接收由监视物理环境的一个或多个相机的相机阵列中的每个相机捕获的图像数据；

接收由监视所述物理环境的两个或更多个麦克风的麦克风阵列中的每个麦克风捕获的音频数据；

针对所述麦克风阵列中的每个麦克风，变换由所述麦克风捕获的所述音频数据以获得在多个频率间隔中离散化的、所述音频数据的离散-时间频域表示，所述多个频率间隔中的每个频率间隔定义所述音频数据的相应频带；

12.根据权利要求11所述的计算系统，其中，所述一个或多个计算设备还被编程为：

将所述识别出的音频源归因于所述音频数据所源自的身份。

13.根据权利要求11所述的计算系统，其中，所述音频数据表示由所述麦克风阵列中的每个麦克风捕获的音频数据流的时间间隔；并且

14.根据权利要求11所述的计算系统，其中，所述一个或多个计算设备还被编程为：

15.根据权利要求11所述的计算系统，还包括所述麦克风阵列和所述相机，所述麦克风阵列和所述相机与所述计算系统的至少一个计算设备被包含在外壳内。