CN113906503A

CN113906503A - 处理来自分布式设备的重叠语音

Info

Publication number: CN113906503A
Application number: CN202080032660.1A
Authority: CN
Inventors: 吉冈拓也; A·施特尔克; 陈卓; D·B·迪米特利亚迪斯; 曾南山; 秦莉娟; W·I·欣托恩; 黄学东
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2019-04-30
Filing date: 2020-03-18
Publication date: 2022-01-07
Also published as: WO2020222929A1; US12051422B2; US20210407516A1; EP3963579A1; US11138980B2; US20200349954A1

Abstract

一种计算机实现的方法，包括：经由从对应的多个分布式设备传送的多个音频流，接收表示语音的音频信号；经由神经网络模型，针对具有重叠语音的接收的音频信号中的一个或多个音频信号执行连续语音分离；以及在固定数目的分离的输出音频通道上提供分离的语音。

Description

处理来自分布式设备的重叠语音

背景技术

提前计划的会议可以利用在会议之前或在会议开始时设置的一个或多个会议工具，来记录对话并且生成归属于发言者的抄本(transcript)。这种现有的会议工具可以包括在位于会议桌上的设备的不同侧上具有多个固定发言者的设备。该设备可以具有塔状或圆锥状形状，并且可以具有可以被用于标识和跟踪会议中的人员的视频相机。语音到文本算法可以被用于创建抄本。音频波束成形可以与固定发言者的已知位置以及出席者的视频一起被使用，以在抄本中归属语音。

发明内容

可以通过使用置换不变训练而被训练的神经网络模型来执行连续语音分离。多个分布式设备包括与会议中的发言者相关联的无线设备。会议可以是临时(ad-hoc)会议。

附图说明

图1是根据示例实施例的多个用户之间的会议的透视图。

图2是根据示例实施例的用于在会议中使用的用户设备的框图。

图3是根据示例实施例的图示了在具有关联分布式设备的两个用户之间发起智能会议的方法的流程图。

图4是根据示例实施例的图示了通过使用会议码将分布式设备添加到智能会议的方法的流程图。

图5是根据示例实施例的将另外的设备添加到智能会议的计算机实现的方法。

图6是根据示例实施例的图示了检测ad-hoc会议正在进行的计算机实现的方法的流程图。

图7是根据示例实施例的图示了响应于用户离开会议，而从用户设备和其他设备移除音频通道的计算机实现的方法的流程图。

图8是根据示例实施例的图示了认证设备以用于将来自该设备的音频流添加到被会议服务器实例处理的音频通道的的计算机实现的方法的流程图。

图9是根据示例实施例的用于针对多个用户之间的会议生成抄本的系统的高级别框流程图。

图10是根据示例实施例的图示了对包括来自分布式设备的音频流的信息的分布式会议服务器处理的详细框流程图。

图11是根据示例实施例的图示了在智能会议期间，将从多个分布式设备接收的多个音频通道进行同步的计算机实现的方法的流程图。

图12是根据示例实施例的图示了在分布式设备智能会议中分离重叠语音的计算机实现的方法的流程图。

图13是根据示例实施例的图示了在处理期间在多个选择的点处融合音频流的计算机实现的方法13的流程图。

图14A和图14B图示了根据示例实施例的示例环境捕捉设备。

图15图示了根据示例实施例的麦克风阵列的示例放置。

图16图示了根据示例实施例的具有环境捕捉设备的AI系统。

图17是根据示例实施例的图示了减少通过网络被发送到会议服务器以用于生成抄本的音频流的数目的计算机实现的方法的流程图。

图18是根据示例实施例的图示了用于使用来自分布式设备的视频和音频通道、视听数据两者以提供更好的发言者标识的计算机实现的方法的流程图。

图19是根据示例实施例的图示了用于基于用户偏好定制输出的计算机实现的方法的流程图。

图20是用于实现一个或多个示例实施例的计算机系统的示意框图。

具体实施方式

在下面的描述中，参考形成其一部分的附图，并且在附图中通过图示的方式示出了可以实践的特定实施例。这些实施例被足够详细地描述以使本领域技术人员能够实践本发明，并且应当理解，可以利用其他实施例，并且可以在不脱离本发明的范围的情况下进行结构、逻辑和电气改变。因此，以下示例实施例的描述不应当被认为是限制性的，并且本发明的范围由所附权利要求书限定。

在一个实施例中，本文中描述的功能或算法可以用软件实现。该软件可以包括存储在计算机可读介质或计算机可读存储设备上的计算机可执行指令，诸如一个或多个非瞬态存储器或其他类型的基于硬件的存储设备(本地的或联网的)。此外，这种功能对应于模块，其可以是软件、硬件、固件或其任何组合。可以根据需要在一个或多个模块中执行多种功能，并且所描述的实施例仅是示例。软件可以在数字信号处理器、ASIC、微处理器，或者在诸如个人计算机、服务器或其他计算机系统等计算机系统上操作的其他类型的处理器上被执行，从而将这种计算机系统转换成专门编程的机器。

功能可以被配置为使用例如软件、硬件、固件等来执行操作。例如，短语“被配置为”可以是指用于实现相关功能的硬件元件的逻辑电路结构。短语“被配置为”还可以是指用于实现固件或软件的相关功能的编码设计的硬件元件的逻辑电路结构。术语“模块”是指可以使用任何适当的硬件(例如，处理器等)、软件(例如，应用等)、固件，或硬件、软件和/或固件的任何组合来实现的结构元件。术语“逻辑”涵盖用于执行任务的任何功能。例如，流程图中示出的每个操作对应于用于执行该操作的逻辑。操作可以使用软件、硬件、固件等来执行。术语“组件”、“系统”等可以是指计算机相关实体、硬件、和执行软件、固件或其组合。组件可以是在处理器、对象、可执行文件、程序、函数、子例程、计算机，或软件和硬件的组合上运行的进程。术语“处理器”可以是指硬件组件，诸如计算机系统的处理单元。

此外，所要求保护的主题可以使用标准编程和工程技术产生用于控制计算设备实现所公开的主题的软件、固件、硬件或其任何组合，而被实现为方法、装置或制品。本文中使用的术语“制品”旨在涵盖从任何计算机可读存储设备或介质可访问的计算机程序。计算机可读存储介质可以包括但不限于磁存储设备，例如硬盘、软盘、磁条、光盘、压缩盘(CD)、数字多功能磁盘(DVD)、智能卡、闪存设备等。相反，计算机可读介质(即，不是存储介质)可以附加地包括通信介质，诸如用于无线信号等的传输介质。

被称为用户的个人可以在任何时间开启对话或会议。如果已经计划会议，则可以进行安排来记录对话并且创建对话的抄本以供日后参考。但是，ad-hoc会议通常不涉及这种准备工作。停止会议，或以其他方式花时间设置一种方法来记录对话和安排创建抄本可能会分散注意力，或者在会议期间可能没有被想到。此外，ad-hoc会议通常在会议室外举行。在该情况下，专为会议设计的记录设备不可用。

在对话期间，对话的音频可以被用户可能携带的设备捕捉，该设备被称为分布式设备。所捕捉的音频信号可以通过无线通道被传送到会议系统，以识别多个用户正在进行对话(被称为会议)，该对话可以被计划或可以没有被计划。如果会议未被计划，则可以被称为ad-hoc会议。

响应于已经被检测或以其他方式安排的会议，在会议系统上生成会议实例，以识别来自可能正在讲话的用户的语音，并且生成会议的抄本。来自多个分布式设备的多个语音信号可以作为分离的音频通道被接收并且被用来生成抄本。分布式设备可以包括个人用户设备以及其他设备，包括数字助理、相机和能够接收可以在对话范围内的音频和/或视频的任何类型的设备。

在一些实施例中，可以经由会议应用，利用在单个设备上单次按下按钮来创建会议。其他设备和具有设备的用户可以通过经由会议应用按下用户设备上呈现的按钮或在不在使用中时被招募(例如，房间中存在的现有会议设备)，来加入会议。会议参与者可以通过语音指纹、参与设备的所有者、面部识别以及在任何时间点经由他们设备上的会议应用手动添加用户(例如，对于远程参与者)而被推断。

有许多不同的方式可以建立会议。诸如智能电话的分布式设备可以与相应用户相关联，并且可以包括会议应用，以用于将从设备上的麦克风和/或相机接收的音频和/或视频流式传输到会议服务器。从附近设备接收的音频将具有音频签名，该音频签名是基于环境噪声和/或设备附近生成的任何声音的组合。响应于两个用户设备经由它们相应的音频流(音频通道)提供类似的音频签名，会议系统识别会议可能正在进行，并且创建会议实例来处理接收的音频。用户可以经由他们的会议应用被提示加入会议，或者可以使用其他信息，诸如位置信息、之前的交互、日历信息或最近的电子邮件交互，来确认两个用户或第三用户都应当被添加到会议实例。

另一实施例中，音频水印可以由用户设备中的一个或多个用户设备生成。音频水印可以包括音频签名或者可以被分开检测。音频水印可以是频率高于用户正常听力范围的声音模式，诸如20Khz或更高，或者可以只是对用户不显眼的声音，以免干扰对话。在另一实施例中，水印可以是完全可听和可识别的。在一些实施例中，水印可以被选择，以由被期望确保会议实例在对话期间被创建的用户发送。水印将由范围内的分布式设备接收，并且自动或可选地被添加到会议实例。水印声音范围内的设备也可以将其音频流作为附加音频通道添加到会议实例。

会议码可以被生成，并且被发送到其他用户以将他们添加到计划的或ad-hoc会议。会议码也可以在计划的会议之前被选择并且在会议邀请中被使用。在从用户设备接收到会议码后，会议系统一旦被实例化，就将来自这种用户设备的音频流添加到会议中。在另一实施例中，可以使用会议码加入分布式设备的多个集群。集群可以在不同的位置，诸如不同的大厅、房间、城市、国家等。

在一个实施例中，输出可以基于分布式系统中的用户偏好而被定制。在示例实施例中，会议服务器或系统从智能会议中涉及的多个分布式设备接收音频流。智能会议只是一种会议，其中使用一个或多个设备来捕捉语音，并且创建可以具有发言者归属的抄本。会议系统标识对应于多个分布式设备中的一个分布式设备的用户，并且确定用户的优选语言。随着会议的进行，从接收的音频流生成抄本。会议系统将抄本翻译成用户的优选语言，来形成翻译的抄本。翻译的抄本被提供给用户的分布式设备。在示例实施例中，在会议进行时，翻译的抄本被实时(或接近实时)提供。翻译的抄本可以经由文本被提供(例如，在用户的设备上显示)或作为音频被输出(例如，经由扬声器、助听器、听筒)。在一些实施例中，作为翻译的代替或补充，其他类型的转换可以被应用于原始抄本、翻译的抄本或翻译的语音音频。

图1是多个用户之间的会议100的透视图。第一用户110具有第一设备115，第一设备115包括麦克风，以捕捉包括语音的音频。第二用户120具有第二设备125，第二设备125也能够捕捉包括语音的音频。在一个示例会议100中，用户可以坐在桌子130旁。

第一设备115和第二设备125将捕捉的音频传送到会议服务器135，以用于处理和生成抄本。会议可以是ad-hoc的，因为它未被计划。用户可能在休息时遇到了对方或者碰巧在走廊里相遇，并且决定谈论他们正在工作的项目。会议应用或会议app可以在第一设备和第二设备两者上运行。会议应用可以用于向会议服务器135提供音频。

会议服务器135可以检测到两个设备都在发送具有相似音频签名的音频、音频水印、两个设备提供的会议码，或指示用户之间正在进行的讨论的其他信息。会议服务器135可以生成会议实例来处理接收的音频并且生成抄本。

在各种实施例中，水印可以是具有仅高于人类听觉范围(其大约为20kHz)的能量的任何类型的声音，或者是标识会议实例或与会议码对应的会议100的以其他方式听不见、不明显或不分散注意力的声音。在另一实施例中，水印可以是对会议码或会议实例的其他标识进行编码的声音。

会议100可以涉及两个以上人员，无论是计划的还是ad-hoc的。具有第三设备145的第三用户140也可以加入会议100。第三设备145还可以向分布式会议服务器135提供音频。该音频可以被一个或多个与识别前两个用户/设备参与会议100所描述的相同机制识别为参与会议100。

分布式设备的所有者/用户可以经由应用来把他/她自己加入，以被会议服务器135识别。用户可以已经具有语音简档(被称为语音纹印或指纹)，以帮助会议服务器135将传入的语音与用户相关联。如果随机的人员加入会议100，则会议服务器可以识别出该人员是未知的，并且提示已经在会议中的用户中的一个或多个用户输入该人员的姓名，或者也可以搜索与会议中已知用户相关联的组织中的数据库，以将该人员与简档相匹配。如果该人员未知或以其他方式被标识，则可以在生成的抄本中利用标签或标记将该人员标识为发言者1、发言者2等，使得在后来命名该人员时更容易修改抄本。任何用户都可以在会议期间或之后的任何时间对发言者标签指定名称。已经在会议中的那些人的已知联系人可以用于减小用于初始检查人员以优化标识人员的过程的池/数据库。

可以存在在会议100的音频或视觉范围内的附加设备，诸如数字助理148或专用会议设备150，两者都被示为在桌子130上，但是可以在会议100的音频范围内的任何地方。这种附加设备也可以连接到分布式会议服务器135，并且将它们的音频流添加到会议实例以进行处理，来进一步增强在会议服务器135上运行的会议实例的音频和语音到文本的处理能力。这种附加设备可以由服务器检测并且如上所述的那样被添加到会议中，或者可以作为用于添加到会议的选项被呈现给用户中的一个或多个用户。

视频相机155或其他相机可以具有环绕会议100的视场。会议服务器135可以知道这种相机在会议100附近，并且可以向用户中的一个或多个用户提供指示，这提供了从相机获取信息到会议实例的选项，以进一步增强抄本的处理和供给。例如，这种相机可以用于检测哪个用户正在讲话，或至少提供用户可能在任何特定时间点讲话的信息。

图2是用于在会议中使用的用户设备200的框图。可以参与会议的其他设备可以具有类似的组件集。设备200包括至少一个麦克风210和处理器215，处理器215用于执行存储在存储器225上的会议应用220。收发器230用于将来自相机235的音频和/或视频流式传输到分布式会议服务器135。用户设备200还可以具有显示屏，诸如触摸屏240，其一部分被示出。

可以参加会议的设备，可以经由以下方式来被标识：日历条目、当前位置、NFC(将电话非常靠近后)、蓝牙

广告、以及经由会议码或可以被生成并且与会议100相关联的其他代码的直接邀请。

会议服务器135可以经由多个会议实例同时处理多个会议。每个会议实例可以包括会议标识符，诸如会议码、流式传输音频的设备的标识、参与会议的用户的标识(该标识是经由用户关联的设备，或者通过面部识别、声音识别或识别用户的其他方式以其他方式被会议服务器识别)。

图3是图示在具有关联的分布式设备的两个用户之间发起智能会议的方法300的流程图。在操作310处，音频水印经由与第一分布式设备相关联的麦克风在第一分布式设备处被接收。音频水印可以在会议期间由与第二分布式设备相关联的发言者传送。在操作320处，对应于所接收的音频水印的数据经由第一分布式设备被传送到分布式设备会议服务器。注意，接收的音频水印可以首先被转换为数字形式，这可以简单地是音频水印到声音的数字表示的直接转换，或者可以包括对音频水印的解码以获取标识会议或发出音频水印的第二分布式设备的数据。在操作330处，可以从分布式会议服务器接收以下指示：第一分布式设备已经被接受到分布式设备会议服务器上的会议实例。在操作340处，第一分布式设备响应于接收的指示，将会议的音频流式传输到分布式设备会议服务器上的会议实例。接收的指示可以包括标识要使用的通信通道的信息，或者音频流可以简单地标识流式传输设备，会议服务器使用该流式传输设备，来将音频流引导到正确的会议实例。

图4是图示使用会议码将分布式设备添加到智能会议的方法400的流程图。在一些实施例中，会议码可以如方法300中那样被编码在水印中。在操作410处，经由第一分布式用户设备为用户之间的会议生成会议码。第一分布式用户设备可以从执行会议实例的会议服务器接收码，或者可以经由在第一分布式用户设备上运行的会议应用来生成会议码。在操作420处，码可以被发送到第二分布式用户设备。码可以经由电子邮件、文本或其他电子发送数据的方式被发送，或者可以被编码为可听信号(音频水印)，并且被声学地传送到其余的参与设备，诸如经由用户设备中的一个用户设备(诸如第一分布式用户设备)的扬声器。第二分布式用户可以向会议服务器会议实例提供会议码，其中该会议码在操作430处被使用，来标识至少一个第二分布式用户设备。在操作440处，第二分布式用户设备将音频从第一和第二分布式用户设备两者流式传输到会议服务器会议实例。

会议可以是具有多个相应用户设备的多个用户之间的ad-hoc会议，并且会议码在ad-hoc会议开始之后被生成。注意，也可以存在没有关联用户设备的用户正在参与会议。可以基于检测到的设备位置来标识其他用户设备和不与用户相关联的设备。来自这种设备的数据可以通过向用户提供其他附近设备的列表，并且允许经由应用的用户接口选择这种设备以添加到会议实例，来将其数据流添加到会议实例。可以参加会议的设备可以经由日历条目、当前位置、NFC(将电话靠得很近)、蓝牙广告和直接邀请而被标识。

在另一的实施例中，会议是具有多个相应用户设备的多个用户之间的计划会议，并且会议码在计划会议开始之前被生成。会议码可以被发送到用户设备中的每个用户设备，并且可以由对应的应用使用以向会议服务器会议实例标识设备，以在会议期间添加来自这些设备的数据流。

图5是将另外的设备添加到智能会议的计算机实现的方法500。在操作510处，会议服务器从分布式设备组接收音频流，其中音频流包括在两个以上用户的会议期间由这种分布式设备组捕捉或检测到的语音。在操作520处，会议服务器从附加的或新的分布式设备接收与会议相对应的会议信息。新设备可以是用户刚刚加入会议的情况下的用户设备，或者新设备可以是在房间内或以其他方式在智能会议范围内的设备。在操作530处，附加分布式设备被添加到会议服务器会议实例。在操作540处，响应于添加附加分布式设备，来自附加分布式设备的信息的流被接收。

图6是图示检测ad-hoc会议正在进行的计算机实现的方法600的流程图。在操作610处，在会议服务器处接收来自两个分布式设备的音频流，该两个分布式设备流式传输在两个用户之间的ad-hoc会议期间检测到的音频。在操作620处，音频流被比较，以确定音频流表示来自ad-hoc会议的声音。在操作630处，响应于确定音频流表示来自ad-hoc会议的声音，会议服务器生成会议实例来处理该音频流。在操作640处，音频流被处理以生成ad-hoc会议的抄本。

可以使用用于比较两个信号的许多不同算法来比较音频流。在一个实施例中，通过计算两个信号之间的归一化互相关系数来执行比较。如果结果高于选择的阈值，则音频流很可能来自相同(ad-hoc)会议。选择的阈值可以是0和1之间的数字，并且可以基于在不同环境中的多个会议场景期间进行的测试凭经验进行选择。可以执行选择来获取假阴性和假阳性的期望平衡。流来自相同会议的其他指示包括设备的位置。另外的指示包括过去有多个联系人的多个用户在相同组织中，以及用户可能遇见的其他指示。通过比较从音频流生成的文本，可以获取进一步的验证。

一旦流成功地被比较，会议id(标识符)/码就可以被生成并且被用来添加更多参与者。响应于另外的设备流式传输与会议中已经存在的音频流成功比较的音频，可以添加其他参与者。一旦设备被添加，该设备就可以生成指示加入会议的信号，诸如ping。

用户也可以在来自用户的相应设备的音频流被添加到会议实例之前被认证。认证可以是基于来自应用的用户确认、日历信息、组织结构图、会议码的使用、与已经在会议中的用户的联系/关系的程度以及其他认证方式。

在一个实施例中，会议服务器135检测设备和/或关联用户离开会议的时间，并且从会议实例移除音频流/通道。当与设备相关联的参与者离开会议时，会议服务器135检测到与会议中的其他设备相关联的音频信号的缺失，并且将该设备从会议移除。备选方案包括用户经由会议应用发信号离开、关闭会议应用、检测设备的位置不再靠近会议的位置、检测来自设备的视频流中没有对应的音频水印、检测设备接收的音频签名不再与其他设备的音频流匹配，以及对来自视频信号的图像执行图像识别，来检测用户正在离开或已经离开会议进行的会议室或区域。类似地，会议实例可以响应于剩余单个用户或剩余单个用户设备来被结束。

图7是图示响应于用户离开会议，而从用户设备和其他设备移除音频通道的计算机实现的方法700的流程图。在操作710处，多个音频信号被会议服务器实例处理，该多个音频信号在从分布式设备组接收的对应多个音频通道上被接收，该分布式设备组从分布式设备会议接收音频。在操作720处，会议服务器实例用于检测与分布式设备组的第一设备相关联的第一用户已经离开分布式设备会议。在操作730处，从被会议服务器实例处理的多个音频通道移除第一分布式设备的音频通道。

图8是图示了认证用于将来自该设备的音频流添加到被会议服务器实例处理的音频通道的设备的计算机实现的方法800的流程图。方法800在操作810处开始，在会议服务器处从多个分布式设备接收音频流，这些设备在会议期间接收来自多个用户的语音。在操作820处，接收的音频流经由在分布式设备会议服务器上执行的会议实例被处理，以基于音频流中包括的语音生成抄本。在操作830处，在会议服务器处从与第一附加用户相关联的第一附加分布式设备接收信息，该信息对应于用户之间的会议。该信息可以对应于添加用户的设备的请求，或者可以是暗示的请求(通过注意到来自这种设备的音频流包括水印或音频签名)。在操作840处，第一附加分布式设备或关联用户被认证或以其他方式被授权加入会议。在操作850处，第一附加分布式设备将其音频流添加到会议实例。

基于语音指纹、会议组织者接受、使用会议码和/或新码、检测的设备位置、设备ID和/或相关联的用户ID与授权列表的比较、组织成员检查、使用非公开会议标志来要求组织者接受，或以上的组合，参与者可以被授权加入会议。注意，方法800也可以被应用于加入会议的前两个设备，并且也可以被应用于不与用户直接关联的设备，诸如会议室中的会议助理类型的设备或具有会议的视场的视频相机。

远程参与者可以经由Skype或Teams，或电话拨入或任何其他电话会议应用连接到会议中。如果使用像Skype的远程会议平台，可以通过跟随提前发送的链接加入会议。对于拨入，可以共享唯一的电话号码或接入码，诸如会议码。一旦远程音频通道连接到会议的服务器，它就以类似于来自会议区域的音频流的方式被处理。如果发言者ID基于登录过程而已知，则音频流可以是单个发言者，这意味着不需要语音分离，除非扬声电话与多个远程用户一起使用。在会议中，由扬声电话播放并且由附近分布式设备捕捉的音频应当从来自这种附近分布式设备的音频流中被消除。

图9是用于针对多个用户的会议生成抄本的系统900的高级别框流程图。用户可以具有配备有麦克风的关联设备910、912、914来捕捉音频，包括会议中各个用户的语音，并且分别经由音频通道916、918和920将捕捉的音频作为音频信号提供给会议服务器，会议服务器至少包括会议转录器925。不同的设备可以具有稍微不同的时钟周期和不同的处理时延量。此外，每个设备到服务器的连接通道可能具有不同时延。因此，来自音频通道916、918和920的信号不一定是同步的。

除了语音识别功能之外，会议转录器925还可以包括同步功能。来自通道916、918和920的音频信号首先被同步，然后被识别，这在一个实施例中产生与通道中的每个通道相关联的文本。识别输出然后被融合或以其他方式被处理以生成抄本940。抄本940然后可以被提供回给用户以用于查看。在其他实施例中，来自通道916、918和920的音频信号在语音识别之前被融合。在融合后获取的音频信号被识别，产生用于在抄本中使用的单个文本。在一些实施例中，抄本可以以非常小的延迟被提供。

在各种实施例中，由会议服务器135提供与发言者标识结合使用的音频信号到文本的转换，并且提供被日志化以标识发言者的抄本的生成。由服务器执行的功能包括同步、识别、融合和日志化功能。虽然这种功能在图9中按顺序被示出，但在不同的实施例中，功能可以以变化的顺序被执行。融合可以在识别之前被执行，并且也可以在如下所述的各种其他点处被执行。

图10是图示了会议服务器在1000处处理信息(包括来自分布式设备的音频流)框流程图，其。从多个分布式设备接收多个音频数据流1005。流包括M个独立的数据分组序列。第m个序列的每个分组包含由第m个设备捕捉的数字化音频信号的段。接收的分组被解开，并且来自分组的数据被重组以创建多通道信号。多通道信号可以被表示为：{[x₀(t),…,x_M-1(t)]；t＝0,1,…}。

将音频通道同步：

多通道信号中的不同通道的数字化信号很可能不同步，因为分布式设备中的许多分布式设备经受数字信号处理差异、设备上软件时延差异以及信号传输速度差异的影响。所有这些差异可以叠加，从而难以整合来自不同设备的信息来创建准确的抄本。流同步模块1015接收多通道信号并且其中的选择通道中的一个通道作为参考通道。不失一般性，第一通道可以被用作参考通道。对于参考通道，输出与输入相同，即y₀(t)＝x₀(t)。对于第m个通道(0<m<M)，x_m(t)和x₀(t)之间的未对齐量被估计和校正以生成y_m(t)。

可以通过计算两个信号之间的归一化互相关系数、使用非参考通道信号的滑动窗口并且拾取提供最大系数值的滞后，来估计未对齐程度。这可以通过使用缓冲器临时存储声学信号段来被实现，在这些声学信号段上在基准通道和其他通道中的每个通道之间单独执行互相关分析。代替归一化互相关，可以使用测量两个信号之间的对齐程度的任何得分函数。

在一个实施例中，相邻同步周期之间的关系被考虑。未对齐由两个因素引起：与设备/通道相关的偏移和与设备相关的时钟漂移。即使两个设备同时捕捉声音事件，由于DSP差异、设备上软件时延差异、信号传输速度差异等，由单独的设备捕捉的信号也以在不同的时间到达服务器。这是设备/通道相关的偏移。此外，由于制造可变性，不同的设备不可避免地具有略有不同的时钟。因此，即使两个设备声称支持例如16kHz采样速率，由这些设备记录的信号也不是100％对齐的，并且未对齐量随着时间的推移而线性增长。这是设备相关的时钟漂移。设备/通道相关偏移和设备相关时钟漂移被表示为S和D。第k个同步周期的时间差异被表示为S+kD。因此，对S和D的估计将提供对未对齐程度S+kD的稳健估计。

可以通过使用上述互相关周期性地检测未对齐，并且校正这种检测到的未对齐，来校正未对齐量。此外，为了减少测量的未对齐量，全局偏移(设备/通道相关)和设备相关时钟漂移可以被计算以估计未对齐程度。全局偏移可以用于在通过互相关测量和校正未对齐之前校正全局未对齐。全局偏移可以被确定为测量的未对齐在时间上的平均值，并且很可能是设备中时钟漂移的结果。因此，通过简单地考虑与基准通道的差异来估计和校正未对齐程度。流同步可以以变化的间隔被执行，诸如每30秒。在另一实施例中，可以使用小于或大于30秒的其他间隔，因为网络时延可以改变。

流同步模块1015将多通道同步信号{[y₀(t),…,y_M-1(t)]；t＝0,1,…}提供到波束成形模块1020。波束成形模块1020用于分离重叠语音。当会议中的两个人同时发言时，重叠语音出现。在识别语音并且将语音转换为文本之前，首先将语音分离到分离通道中。因此，对于M通道输入，输出是N通道，并且被称为N通道波束成形信号{[z₀(t),…,z_N-1(t)]；t＝0,1,…}。流同步模块1015充当第一融合点，在该处生成多个输出以保持输入信息的多样性。在没有语音重叠的情况下，这种融合是可选的。

图11是图示在智能会议期间同步从多个分布式设备接收的多个音频通道的计算机实现的方法1100的流程图。在操作1110处，从多个分布式设备接收表示流式传输语音的音频信号以生成多个音频通道。在操作1120处，将音频通道中的一个选择的音频通道指定为参考通道。一旦参考通道被指定，就对其余音频通道中的每个音频通道执行以下操作。在操作1130处，确定与参考通道的时间差异。在操作1140处，通过根据对应的时间差，利用参考通道校正其余音频通道来对齐或补偿每个其余音频通道的时间。这可以通过简单地丢弃无关样本、移位信号、附加零或使用重采样技术来完成。

方法1100可以被周期性地(诸如每30秒)执行来校正剩余音频通道的时序。在一个实施例中，方法1100包括用于校正至少由分布式设备中的不同时钟引起的全局偏移的其他操作。在操作1150处，对剩余音频通道中的每个音频通道确定全局偏移。然后，在操作1160处，在针对确定的时间差异校正每个剩余音频通道之前，剩余的音频通道然后被每个对应的剩余音频通道全局偏移校正。

几何不可知波束成形：

声学波束成形，或简称波束成形，是一种通过减少不想要的声音(诸如来自多通道音频信号的背景噪声)来增强目标语音的技术。它可以改进下游语音处理的准确性，诸如语音识别和发言者日志化。

对于从多个分布式设备(其相对于彼此的确切位置未知)流式传输音频的智能会议，传统的波束成形算法，诸如延迟求和波束成形、超指向波束成形和差分波束成形不起作用。这种算法依赖于关于麦克风设备布置的先前知识，这对分布式设备不可用。

在一个实施例中，被称为几何不可知波束成形或盲波束成形的方法被用来执行分布式记录设备的波束成形。给定对应于M个音频通道的M个麦克风设备，语音和背景噪声的M维空间协方差矩阵被直接估计。矩阵分别捕捉语音和噪声的空间统计数据。为了形成声束，M维空间协方差矩阵被反转。

波束成形方法的缺点(无论是传统的基于几何形状的波束成形还是盲波束成形)是它通常将信息流的数目从M减少到一，这意味着下游模块不能利用空间分布的设备提供的声学多样性。为了生成M个波束成形信号并且保持声学多样性，可以采用留一法。利用这种方法，第一输出信号通过利用麦克风2-M执行波束成形而被生成。第二输出信号利用麦克风1-M和3-M而被生成。这可以重复M次，使得M个不同的输出信号被获取。对于每个波束成形，(M-1)维空间协方差矩阵被计算和反转，这对计算的要求很高。幸运的是，通过从原始M维逆矩阵导出所有(M-1)维逆矩阵，可以显著降低计算成本。

分离重叠语音：

在一些实施例中，波束成形模块1020可以被配置为分离不同用户的重叠语音信号。这可以使语音识别和发言者归属更加准确。在一个实施例中，用于分布式麦克风记录系统的连续语音分离经由神经网络来被执行，该神经网络使用置换不变训练或其变型(诸如深度聚类或吸引子网络)而被训练。为了潜在地节省计算，可以使用重叠检测来确定是否应当针对每个时间段执行语音分离神经网络。如果针对选择的时间段未检测到重叠语音，则神经网络不被执行，这节省了处理资源并且允许更快速地实时生成抄本。

语音分离神经网络模型被执行，以对分布式麦克风记录系统执行连续语音分离，其中输入麦克风的数目可以是任意的并且随时间变化。神经网络模型被配置为接收变化数目的输入，以支持音频信号的数目和分布式设备的位置在多个用户之间的会议期间的动态改变。该模型输出两个连续的语音流。当有一个活跃发言者时，输出流中的一个输出流将是无声的，在当两个发言者之间存在重叠语音时的同时，每个发言者将占据不同的输出流。

语音分离神经网络模型包含三个子模块：局部观察器、全局汇总器和掩码重建器。多通道输入由这三个模块依次处理。首先，相同的局部观察器被应用于每个输入麦克风。局部观察器由一组堆叠的注意力层组成，它将每个麦克风输入映射到高维表示中，在高维表示中，每个通道将交叉比较并且从所有其他通道中提取信息。实现了两种不同类型的注意力，即自注意力和前馈注意力。

接下来，汇总器被应用来汇总来自每个观察者的信息，以形成跨不同输入通道的全局表示。针对汇总器的两个选项被探索，该两个选项是均值池化和置换不变排序算法，其中将每个通道的表示与置换不变损失进行比较，以将它们的局部置换和全局置换对齐。当没有汇总层时，利用逐通道语音分离网络来缩减网络，其中每个通道具有其自己的分离，即通道之间没有全局分离协议。

最后，针对任意时间，掩码重建器同时对两个掩码输出进行排序。重建器由长短期记忆网络的堆叠组成，并且从每个时间点的汇总生成最终的2通道输出。

在从掩码重建器得到两个通道输出之后，在重建掩码和干净参考之间应用置换不变训练目标函数，其中每个置换输出对和干净参考的欧几里德距离被首先测量，然后最小距离和对应的置换被选择来更新神经网络。

网络利用模拟的多通道数据来被训练，其中为每个样本随机选取输入通道的数目，从2通道到10通道。Libri语音数据集被用作模拟中的源数据。在每个模拟句子中，来自两个随机发言者的两个话语被首先选择，然后每个话语利用房间声学模拟来被处理，其中在随机房间和位置设置的情况下，房间脉冲响应来自图像方法。重叠语音通过添加两个模拟语音而被生成，期望重叠率为50％。模拟了1000小时的训练数据。Adam算法(一种用于训练深度学习模型的随机梯度下降的替换优化算法)被应用以用于更新神经网络。

语音分离的一种变化是语音重叠检测，其中任务被简化为仅检测记录语音中的重叠区域。算法以类似的方式操作，其中网络接收N个通道作为输入，并且连续输出2个通道作为输出。在重叠检测器中，网络不输出掩码，而是输出两个一维指示函数，其中1意味着该通道中存在一个活跃发言者，并且0意味着无声。因此，当存在两个活跃发言者时，2-输出流将都具有1作为输出。当存在一个活跃发言者时，任意通道将具有1作为输出，另一个将具有0。网络也利用网络(即指示符函数)的输出和基准指示符之间的置换不变训练目标而被训练。

图12是图示在分布式设备智能会议中分离重叠语音的计算机实现的方法的流程图。在操作1210处，经由与从对应的多个分布式设备传送的流式传输音频相对应的多个音频通道，接收表示语音的音频信号。在操作1220处，对接收的音频信号执行连续语音分离，以将来自同时说话的不同发言者的语音分离到分离音频通道中。在操作1230处，分离的音频通道被提供以用于语音识别和抄本的生成。在一个实施例中，操作1230提供固定数目的分离输出通道。由于可以有变化数目的麦克风输入，而输出的数目被提前固定，因此可以存在可以容纳有限数目的音频通道的情况，因为对于具有多个重叠发言者的每个音频通道，每个发言者产生分离的音频通道。因此，如果输出音频通道的数目有限，则并非所有通道都可以分离发言者。

在一个实施例中，在操作1220处，语音分离由经训练的神经网络模型执行。神经网络模型使用置换不变训练或其变型而被训练。

图10中的波束成形模块1020的N个不同输出被提供给N个声学模型1025和1030，N个声学模型1025和1030产生多元音素(senone)后验概率的序列。这种模型是众所周知的，并且通常是基于神经网络。对来自分布式设备和/或波束成形器输出的多个音频通道中的每个音频通道使用声学模型为每个senone提供N个得分。

得分(包括针对senone的得分)被提供到声学模型得分融合模块1035。个体输入通道的音频可以被常规地处理，以提供senone的序列及其后验概率。在将结果应用于多个语音识别(SR)解码器1040、1045之前，使用模型得分融合模块1035来组合结果。得分融合模块1035作为第二融合点操作，其将多个信息源组合，并且同时生成多个输出以保留输入信息的多样性。两步过程涉及两个不同的神经网络(或分类器)：一个vanilla-flavor声学模型和一个新的、更有针对性的声学模型。输出是senone的数目的1x的序列。注意，得分融合模块1035使用声学模型(神经网络)的最后一层的输出作为输入。在另一实施例中，得分融合模块1035可以使用最后一层之前的任何层的输出。输入的大小可以与输出的大小不同。

来自声学模型得分融合模块1035的senone的序列被提供到SR解码器1040和1045，SR解码器1040和1045中的每个利用标准语音识别处理来为senone的每个段提供n-best词列表。向每个词提供开始时间和持续时间。段可以基于语音活动检测、发言者变化检测、固定间隔或一些其他适当的方法而被执行。可以通过对解码器输出使用神经网络语言模型(NNLM)来执行重新评分，以生成更好的n-best词假说列表。

多个发言者日志化模块1050、1055接收SR解码器模块的输出作为每个段的N-best列表。在一种实施方式中，仅使用顶部词序列假说。第一操作以固定间隔提取发言者嵌入，诸如d向量(用于发言者验证的深度神经网络的隐藏层激活)。第二操作将词序列分解为发言者同构的子段。这可以通过凝聚聚类的变型、BIC(贝叶斯信息准则)或使用嵌入特征的其他方法而被执行。第三操作通过比较子段的发言者嵌入与每个候选发言者的嵌入的临近度(例如，余弦相似度、负欧几里得距离)，为上面获取的子段中的每个子段分配发言者ID。产生的输出是将发言者标签分配给顶部SR假说的每个识别词。

假说组合模块1060接收来自N个SR解码器模块1040、1045(例如，波束成形的音频通道)的n-best列表，并且接收来自诸如波束成形/分离的音频通道的N个源的发言者识别输出作为输入。假说组合模块1060通过对来自每个通道的n-best得分进行缩放和归一化并且因此计算话语级后验概率，来处理来自每个通道的n-best得分。n-best假说被对齐到词混淆网络中。通过添加与给定词假说有关的话语级后验，可以获取词级后验概率。来自每个通道的发言者识别输出被格式化为具有交替发言者和词标签的混淆网络。词标签来自1-best识别假说，而发言者标签表示与语音片段匹配的1-best或n-best发言者模型。发言者假说的后验概率表示归一化发言者模型的可能性。词假说的后验被缩小两个数量级，以不影响最终的词识别，从而仅影响词和发言者标签的正确对齐。因此从每个通道获取的混淆网络根据需要被截断和/或联接，以覆盖相同的时间窗口，如在线处理约束所规定的那样。输出包括混淆网络(CN)，CN对词和发言者假说及其后验概率进行编码。

词和发言者混淆网络根据最小编辑距离标准以及对齐节点之间的时间差异的惩罚来被对齐。这有效地将发言者和词假说合并到单个网络中，对匹配标签的后验进行求和。如果需要，通过在每个位置选取最高的后验标签，从组合的CN读取顶部发言者和词假说。词混淆网络可以从词格而不是n-best列表来被构建，这取决于语音解码器输出的内容。

来自组合模块1060的输出是被称为后期融合的第三融合的结果，以产生文本和发言者标识，以用于生成会议的归属于发言者的抄本。注意，在各种实施例中，分别在波束成形模块1020和声学模型得分融合模块1035处的前两个融合步骤是可选的。在一些实施例中，一个或多个音频通道可以被直接提供到声学模型评分模块1065，而无需波束成形或语音分离。然后经由SR解码器1070，在这种一个或多个音频通道上执行语音识别，接着是发言者日志化模块1075，输出被直接提供给组合模块1060。

在数字音频流的同步之后，音频流可以通过几何不可知波束成形或连续语音分离来被早期融合。可以生成多个输出以保持输入信息多样性。后期融合可以在声学模型得分级别和/或文本级别/日志化级别来被完成，以利用发言者信息和多样的模型假说。在一个实施例中，通过使用固定时间窗口来执行对一两个词的后期融合。在一个实施例中，时间窗口对应于显著音频事件，并且可以固定在例如2秒。这种时间窗口被选择为相当短，以使得能够提供具有低时延的实时抄本。

通过语音识别对并行处理的多个音频通道执行数据的后期融合，来产生短语。从多个音频通道导出的短语被实时组合。在一个实施例中，大约两秒的语音在假说组合模块1060处被组合。因此，音频流在它们被接收时被处理。两秒的非重叠滑动窗口用于处理音频流，从而将会议服务器135抄本生成的时延降低到接近于零。

单独的语音识别解码器连续输出一些结果，并且基于假说组合模块1060，结果被立即处理。在流同步模块1015处，为单独的系统的对齐提供特殊规定，否则最终结果可能包含相同事件的多个实例(由于未对齐)。无论信号和/或语音识别输出对齐如何，后处理步骤都移除可能存在的任何重复。对齐可以在字线级别或信号的样本级别被执行。另外注意，不同版本的音频被语音识别解码器接收。每个SR解码器可能听过不同的东西。通过将SR结果(后期融合)与低时延相结合，可以生成高度准确的抄本。每一个SR输出一两个具有置信度的词。诸如两秒的时间足够长以获取一些显著输出，换句话说，输出具有可以以一定置信度被识别的一两个词。发现固定的时间窗口(诸如两秒)效果更好。如果时间太短，则没有显著事件，如果时间太长，则时延变得太长，并且转录被延迟，使得在会议期间抄本的实用性降低。

该方法的另一个版本是等待音频流中的时间点，其中(1)所有流不包含高置信度的语音，或(2)具有高置信度的单个词假说。在这些地方，假说空间可以被压缩到单个假说，这使得可以在不因分词错误而损失准确性的情况下，执行组合。

可以基于在1080处指示的输出，将抄本提供给会议参与者中的一个或多个会议参与者。基于会议系统的输出，提供单个会议抄本。抄本由个人话语和关联媒体组成，诸如幻灯片或绘图照片。每个话语被分配了通用时间戳、归属的发言者、关联文本和关联音频段，其中音频从来自所有参与客户端的同步输入流被提取。

附加媒体(诸如图像、笔记和其他抽象对象)可以通过时间戳与抄本内联地相关联(例如，白板的图片在时间t处被捕捉和上传)，或在没有特定时间戳的情况下与整个会议相关联(例如，文件在会议之后被上传并且与该会议实例相关联)。所有参会者都可以访问会议和关联数据。ad-hoc会议可以由会议所有者、所有参会者或任何人查看和修改，这取决于由创建会议的实体设置的权限。可以使用抄本和其他相关联的会议数据来提供附加服务，诸如会议总结、行动项目标识和主题建模。

多级融合

图13是图示在处理期间在多个选择点处融合音频流的计算机实现的方法13的流程图。在会议期间由多个分布式设备记录音频流。方法13由执行操作的一个或多个处理器执行。操作1310通过在一个或多个处理器上执行的对应语音识别系统，对每个音频流执行语音识别，来生成话语级后验概率作为每个音频流的假说。在操作1320，假说被对齐和格式化为具有关联词级后验概率的词混淆网络。操作1330通过执行发言者标识算法来对每个音频流执行发言者识别，该算法生成归属的发言者的词假说的流。在操作1340处，对于每个音频流，发言者假说与关联的后发言者标签后验概率和归属发言者的假说一起被格式化为混淆网络。操作1350将来自所有音频流的词和发言者混淆网络彼此对齐，来合并后验概率并且将词和发言者标签对齐。在操作1360处，通过读出或选择具有最高后验概率的词和发言者标签的序列，来创建最佳的归属的发言者的词抄本。

在一个实施例中，当从每个流仅生成单个词假说时，甚至可以没有后验概率，并且在所有流中间使用简单投票时，获取特殊近似版本。

方法1300的操作可以在被应用于音频流的连续时间窗口上被执行，使得处理被递进地执行，以便使得能够实时产生归属的发言者的词识别假说。基于与为每个音频流生成的词假说相关联的时间标记，输入假说在时间上被截断到应用于所有音频流的公共时间窗口。

经由N个音频流中的K个(其中K<N)音频流的融合，输入发言者和/或词假说流可以源自输入音频流的多个部分组合。备选地，输入发言者和/或词假说流不是源自不同的音频流，而是源自被应用于N个音频流中的K个音频流的声学模型的多个部分组合，N个音频流又可以源自原始音频信号或音频信号的融合。

在又一实施例中，基于与为每个音频流生成的词假说相关联的时间记号，输入假说在时间上被截断到应用于所有音频流的公共时间窗口。N个原始音频信号中的K个原始音频信号的组合或音频信号的融合，可以是基于音频质量标准和/或基于发言者相对于分布式设备的相对位置。

在一个实施例中，经由N个音频流中的K个(其中K<N)音频流的融合，输入发言者和/或词假说流源自输入音频流的多个部分组合。N个声学模型输出中的K个声学模型输出的组合，可以是基于输入信号的音频质量标准和/或基于发言者相对于分布式设备的相对位置。备选地，输入发言者和/或词假说流可以源自被应用于N个音频流中的K(其中K＜N)个音频流的声学模型的多个部分组合，N个音频流又由原始音频流或音频流的融合产生。在又一实施例中，多个声学模型的输出可以被应用于N个音频流中的K(其中K<N)个音频流，N个音频流又由原始音频流或音频流的融合产生，这些音频流被组合作为M个语音识别解码器的输入。

减少环境捕捉设备中的计算资源：

图14A和图14B图示了示例环境捕捉设备1410。在一个实施例中，环境捕捉设备1410可以是圆柱形的，具有位于设备的顶部并且相对于设备面朝上的鱼眼相机1411。麦克风阵列1413可以被耦合到相机1411下方的设备1410，并且被放置在圆柱体周围以360°捕捉音频。应当注意，图14A中的设备可以未按比例绘制。为了捕捉最佳的360°视觉(例如，视频或静止图像)，可以预期鱼眼相机靠近地板或桌子表面1450。在一个实施例中，设备可以较短并且矮而宽，以避免相机1411下方的盲点。在一个实施例中，鱼眼相机可以与麦克风阵列1413紧邻地被放置。在图14B图示的示例中，麦克风阵列1413中包括七个麦克风1423A-1423G。如所示的，六个麦克风1423A-1423F在平面中可以被放置在设备周围，并且与设备的中心或多或少等距，并且第七麦克风1423G可以被放置在中心。应当理解，该设备可以由音频可穿透材料制成，诸如轻质织物、格栅或网，并且麦克风1423不会被鱼眼相机1421或设备1420的其他结构部分阻挡，使得声音不被遮挡。

在一个实施例中，鱼眼相机可以离设备1420的底座大约30cm，并且麦克风阵列1413可以被固定在底座1430上方大约15cm处。在操作时，设备1420可以坐在或贴在环境中的地板或桌子1450上。由于设备1420被放置得更靠近地板，因此360°水平视场(HFOV)可以包括更多的环境。鱼眼相机1421通常面朝上附到设备1420，因此天花板可以在视场内。应当理解，可以实现设备1420的其他形状、大小或配置以及鱼眼相机1421和麦克风阵列1423的其他放置，可以进行一些调整来提供相似和不同的结果。

在一个实施例中，用于音频捕捉的声学参数可以根据麦克风的规格而变化。一个实施例的声学规格的示例在下面的表1中被示出。在一个实施例中，声学参数(例如，捕捉的脉冲编码调制(PCM)数据)可以应用于整个音频子系统，而不仅仅是麦克风。所捕捉的音频可以产生足够的语音识别准确性以在AI应用中使用。受益于本公开的本领域普通技术人员应当理解，可以利用各种声学参数来实现语音识别准确性，并且表1中的示例参数是用于说明目的。

表1.示例声学参数

图15图示了根据实施例的麦克风阵列1523的示例放置。在一个实施例中，设备包括放置在相同平面中的七个麦克风。六个麦克风1523A-1523F在平面中可以以圆形或六边形图案被放置，距中心点大约4.25cm。第七麦克风1523G可以被放置在中心点处。在一个实施例中，七个麦克风的配置包括类似规格的麦克风。应当理解，当麦克风不同时，可能需要对从麦克风阵列接收的音频数据进行附加处理以归一化或调整音频。在一个示例实施方式中，麦克风阵列1523可以包括端口面朝上的七个数字微机电系统(MEMS)麦克风。应当理解，当麦克风没有被声音吸收组件或声音阻挡组件(诸如电路板或设备外壳)遮挡时，可以产生更好的性能。在一个实施例中，类似的麦克风使用设备中的相同时钟源(未示出)计时。音频的计时或时间戳可以帮助视听数据的同步和融合。环境捕捉设备可以将所有麦克风信号抽取为16位16kHz PCM数据。在这种情况下，抽取是降低信号采样率的过程。对于自动语音识别，可以不需要高于8kHz的频带。因此，16kHz的采样率可以是足够的。抽取降低了比特率，而没有影响所需的准确性。在一个实施例中，捕捉设备可以支持附加的位深度和采样频率。在一个实施例中，捕捉设备可以不允许改变数据宽度和采样频率，以降低驱动器复杂性和改进稳定性。可以使用任何适当的机械阻尼机制(例如橡胶垫圈)来安装麦克风，以减少振动和噪音。应当理解，麦克风阵列中可以存在更多或更少的麦克风。然而，较少的麦克风可能会引入发言者位置或方向的一些不确定性。附加的麦克风可以提供增加的音频确定性或分辨率，但代价是更多的硬件和附加的计算复杂性。

在一个实施例中，音频扬声器可以位于设备的底部或底座，以用于向用户进行音频反馈。音频扬声器可以用于反馈公告或作为AI应用的组成部分。例如，在用于会议管理的AI应用中，用户可以请求将会议记录读回给参会者。设备中的集成扬声器可以提供反馈或请求用于操作的指令或命令。如果口头命令未被理解，则可以通过扬声器播放重复命令的请求。为了减少声学反馈，音频扬声器可以面向与麦克风阵列相反的方向。经由音频扬声器播放的音频可以作为附加同步麦克风通道被回送。

返回参考图14B，在一个实施例中，鱼眼相机1421可以接收360°HFOV和至少95°垂直视场(VFOV)以上，并且可以接收水平轴以下95°VFOV，从而产生190°VFOV或大约200°对角线视场(DFOV)。实际上，捕捉设备可以被放置在地板的桌子上，因此可以不需要表面下方的垂直视图。因此，在本文的讨论中，VFOV被标识为大约95°，以指示在设备的水平基面上方的视图。在一个实施例中，鱼眼相机1421可以包括一个12兆像素(MP)的鱼眼传感器(例如，提供4K分辨率)。相机透镜可以相对于其图像传感器被安装，以使光学中心与图像传感器的中心对齐，并且使光学轴线垂直于图像传感器。相机模块与麦克风阵列的相对位置可以是固定和已知的。特别地，光学中心也可以与麦克风阵列的中心对齐，其中光学轴线垂直于麦克风阵列。

图16图示了具有如上所述的环境捕捉设备1610和被称为云服务器1620的会议服务器的AI系统1600。在一个示例中，用户1630与AI应用1623交互。应当理解，AI应用可以驻留在云服务器1620或本地设备(未示出)上。AI捕捉设备1610可以360°捕捉视听数据。如上所述，捕捉设备1610可以包括提供360°HFOV和大约95°VFOV的鱼眼相机1611。捕捉设备1610可以包括麦克风阵列1613来以360°捕捉音频。由相机1611接收的图像和视频流的视频压缩可以由设备上的处理器1615执行。视频模式和压缩协议和标准可以由用户可选择的软件控制而被控制。除了压缩之外，视听数据还可以通过加密而被保护，以防止未授权的人获取数据。在一个实施例中，压缩1618可以由设备上的电路装置执行并且由软件开关控制。预处理1617(例如，图像基于图像内容的裁剪或降噪)可以在压缩1618之前，由处理器执行的逻辑执行。在一个实施例中，预处理可以包括声学回声消除(AEC)，以减少由耦合到设备的扬声器1612引起的反馈、噪声和回声。在一个实施例中，用于关键字发现(KWS)的本地过程可以被包括，使得侦听用于环境捕捉设备的设备命令，诸如以唤醒或关闭设备。本地KWS可以有利于召回(recall)与精度，并且它可以是基于减少的麦克风阵列(例如，两个麦克风而不是完整阵列)。当在设备1610上执行AEC时，包括发言者音频的声学通道可以不需要被发送到模型来执行传感器融合1621。压缩的视听数据可以通过传输单元1619被发送到云服务器1620。传输单元1619可以包括以下方式中的一种或多种：用于有线通信的网络接口卡，诸如以太网连接；使用无线协议的无线收发器，诸如

NFC；或其他通讯方式。在一个实施例中，音频反馈可以经由无线通道中的一个无线通道被发送到设备。云服务器1620可以为AI应用1623执行传感器融合1621。因此，可以执行压缩来减少经由传输单元1619传输到云的带宽。

捕捉设备1410可以与分布式设备一起用于从分布式设备会议捕捉音频和视频。设备1410本身可以是分布式设备中的一个分布式设备。在一个实施例中，与语音相关联的用户的标识可以由捕捉设备1410单独执行，在各种实施例中，从捕捉设备1410收集的信息流可以与从其他分布式设备收集的信息流一起被使用，来生成归属于发言者的抄本。

图17是图示了减少在网络上被发送到会议服务器以用于生成抄本的音频流的数目的计算机实现的方法1700的流程图。方法1700开始于在操作1710处从三个以上麦克风接收多个音频通道，该三个以上麦克风检测来自多个用户的会议的语音。在操作1720处，活跃发言者的方向被估计。在操作1730处，使用语音解混模型来选择两个通道，该两个通道可以对应于主要和次要麦克风或可以对应于融合音频通道。在操作1740处，两个选择的通道被发送到会议服务器以生成智能会议抄本。通过减少发送到会议服务器的数据量，可以节省带宽。由于选择的数据可以说是最好的数据，因此很少准确性(如果有的话)被丢失。

在一个实施例中，麦克风由处于固定配置的设备支撑。固定配置可以包括相机，相机具有被配置成包括多个用户的视场。可以通过执行在来自相机的音频和视频的通道上训练的模型，来执行定位声源。例如，如果一个用户使用具有相机的膝上型计算机，膝上型计算机可以提供音频通道和视频通道两者。音频通道可以相对于基准音频通道同步，并且可以使用相同的时间差异来同步视频通道。可以在视频通道上使用图像识别来将用户标识为发言者，以在产生抄本时进行日志化。在另一实施例中，膝上型计算机可以执行图像处理来确定用户正在说话，并且在音频通道上提供标记，该标记将用户标识为发言者并且指示用户是否正在说话。然后，该标记可以用于日志化，而无需从膝上型计算机传送视频通道。

在另一实施例中，麦克风与多个分布式设备相关联。分布式设备可以包括分别与多个用户相关联的无线设备。分布式设备中的至少一个分布式设备可以包括相机，其提供用户中的至少一个用户的视频。

在又一实施例中，麦克风包括以固定配置被支撑的麦克风，并且包括与关联于用户的分布式设备相关联的麦克风。方法可以由在固定位置支撑麦克风的设备或接收多个音频通道的边缘设备中的一个或多个边缘设备来执行。语音解混合模型可以在边缘设备上被执行。

在另一实施例中，客户端侧处理(在分布式设备、环境捕捉设备和/或边缘服务器中的一个或多个上的处理)用于减少会议服务器所需的计算资源，以及减少用于处理来自分布式设备的分布式会议信息流的网络带宽的量。除了如上所述减少经由网络发送到会议服务器的流的数目之外，还可以在客户端侧上执行波束成形，以及生成音频水印和会议码。在另一实施例中，模型大小可以被减小和量化以更好地在客户端侧上运行。目标函数也可以被修改以更好地在客户端侧上运行。代替输出语音掩码，声源定位可以以相应的较少计算而被使用。

音频通道和视频通道两者都可以用于将语音归因于用户以创建日志化的抄本。视听日志化方法允许结合来自分布式传感器的语音标识、声源定位、面部跟踪/标识和视觉活跃发言者检测，以实现稳健的日志化。

图18是图示计算机实现的方法1800的流程图，以用于使用来自分布式设备的视频通道和音频通道、视听数据来提供更好的发言者标识。方法1800开始于在操作1810处，在会议服务器上接收来自智能会议中包括的多个分布式设备的集合的信息流。在操作1820处，音频信号被接收，该音频信号表示信息流中的至少两个信息流中的至少两个用户的语音。在操作1830处，信息流中的至少一个用户的至少一个视频信号被接收。在操作1840处，根据接收的音频和视频信号，使用接收的音频信号和视频信号来将接收的音频信号中的语音与特定用户相关联。在操作1850处，智能会议的抄本被生成，抄本具有与语音相关联的用户的指示。

在一个实施例中，多个分布式设备是与智能会议中的用户相关联的移动无线设备。移动无线设备可以包括麦克风，并且还可以包括提供至少一个视频信号的相机。在另一实施例中，多个分布式设备包括具有以固定配置支撑的多个麦克风的设备，每个麦克风提供所接收的音频信号中的一个音频信号。设备可以包括具有视场的相机，该相机被配置成包括智能会议中的多个用户并且提供至少一个视频信号。

在一个实施例中，对接收的音频信号和视频信号使用融合模型，以将特定用户与语音相关联。在一个实施例中，视听数据可以由会议服务器分析。视听数据可以在经由网络发送到会议服务器之前首先被压缩。在另一个实施例中，融合模型耦合到捕捉设备作为集成系统。本文的讨论出于说明的目的而不是作为限制描述了会议服务器。

会议服务器根据需要对数据进行解压缩、解码或解密。视听数据可以由AI应用利用LSTM模型而被融合和分析，例如，以标识或推断视听数据中的特征，诸如但不限于：音频方向；图像中的发言者位置；发言者移动；语音签名；面部签名；手势；和/或对象。在一个示例中，AI应用可以需要语音识别或面部识别。LSTM模型可以利用特定于AI应用(其使用传感器数据)的数据来被训练。在一个实施例中，可以使用一个以上的模型或分析引擎，如上所述。

在一个实施例中，语音可以被标识，并且使用视频数据的姿势识别可以被执行。LSTM模型可以使用标识的语音和识别的手势来提供数据的可能融合，并且将可能的结果发送到AI应用。在一个示例中，结合语音命令的手势可以向AI应用提供特定的控制命令。在一个示例中，视频数据的分析可以指示眼睛注视或跟踪眼睛移动，以推断用户正在看哪里。眼睛注视分析可以产生用于AI应用的控制命令，并且可以基于与音频数据的融合而不同。在一个实施例中，LSTM模型可以针对特定的AI应用被训练，并且基于融合数据为该应用提供控制或命令。在另一个实施例中，LSTM模型可以更通用，并且向AI应用提供可能的相关数据，诸如每个发言者的音频流(具有发言者ID和环境中的位置)和视频流，以进一步处理和解释输入。在该示例中，AI应用可以使用音频流和视频流输入来导出适当的命令或执行操作。

一个实施例利用具有12MP传感器的鱼眼相机。另一个实施例可以包括红外(IR)或其他深度传感器来提供三维(3D)或深度信息。如果没有足够的深度传感器来覆盖整个HFOV，则深度信息不能在360°中可用。捕捉设备的变型可以被提供，以适应广泛用户可接受的各种价格点，或者用于不同的应用。例如，包含深度传感器或更高分辨率的传感器可能将设备的成本或复杂性增加到超出所选择AI应用所需的程度。

图19是根据示例实施例图示了用于基于用户偏好定制输出的计算机实现的方法1900的流程图。方法1900中的操作由会议服务器或系统(例如，会议服务器135)使用上述组件来执行。因此，方法1900是参考会议服务器以示例的方式被描述的。然而，应当理解，方法1900的操作中的至少一些操作可以被部署在各种其他硬件配置上，或者由驻留在网络环境中的别处的类似组件执行。因此，方法1900不旨在限于会议服务器。

在操作1910中，会议服务器从多个分布式设备接收音频流。在示例实施例中，音频流包括由多个分布式设备中的一个或多个分布式设备在两个以上用户的会议期间捕捉的语音。在一些实施例中，会议是ad-hoc会议。在这些实施例中，服务器可以对接收的音频流执行盲波束成形或连续语音分离，以将语音与背景噪声或同时讲话的不同发言者分离到分离音频通道中。在一些情况下，音频流被比较以确定音频流表示来自(相同)ad-hoc会议的声音。然后，会议实例被生成，以处理被标识为来自ad-hoc会议的音频流。

在操作1920中，分布式设备中的一个分布式设备的用户的身份被会议服务器标识。在一个实施例中，用户基于由与会议相关联的相机(例如，相机155、相机1521)捕捉的视频信号而被标识。视频信号被传送到会议服务器。会议服务器将来自视频信号的用户的图像与已知(例如，注册)用户的存储的图像进行比较来确定匹配。如果存储的图像与视频信号中用户的捕捉图像匹配，则用户被标识。在一个实施例中，用户的图像被存储或与用户的用户简档相关联。

在备选实施例中，用户基于语音签名而被标识。在该实施例中，来自音频流的语音被解析或日志化，并且与已知用户的存储语音签名进行比较。如果存储语音签名与来自音频流的解析/日志化语音匹配，则用户被标识。在一个实施例中，用户的语音签名被存储或与用户的用户简档相关联。

在操作1930中，标识用户的语言偏好被确定。在一些实施例中，经标识的用户的用户简档被访问。用户简档至少包括对用户的语言的预先确定的偏好。在一些情况下，预先确定的偏好由用户建立(例如，明确指示)。在其他情况下，预先确定的偏好基于与用户相关联的设备(例如，诸如蜂窝电话或膝上型计算机的分布式设备)的设备配置来被确定。例如，设备可以被配置成以英文或中文运行。

在操作1940中，会议服务器生成如上所述的抄本。在示例实施例中，来自音频流的语音被转换为文本，以便生成基于文本的抄本或数字抄本。在一个实施例中，如上所述，实时抄本基于短词序列被生成。数据的后期融合可以通过对被并行处理的多个音频通道的语音识别来执行，以产生短语。从多个音频通道导出的短语实时或接近实时地被组合。在一个实施例中，大约两秒的语音被组合。结果，音频流基本上在它们被接收时被处理。使用几秒(诸如两秒)的非重叠滑动窗口来处理音频流，从而减少转录生成的时延。

在操作1950中，会议服务器根据用户的语言偏好来翻译抄本。在一些实施例中，会议服务器从操作1940获取生成的抄本，并且将生成的抄本中的文本翻译成优选语言的文本。在其他实施例中，会议服务器从操作1940获取生成的抄本，并且将生成的抄本转换成优选语言的语音。更进一步，一些实施例可以执行文本翻译和语音转换两者。

在操作1960中，翻译的抄本被提供给用户的设备(例如，分布式设备)。在一些实施例中，设备包括用于从用户捕捉音频的相同设备。翻译的抄本可以例如作为显示在设备的显示设备(例如，屏幕)上的文本被提供，或者通过使用文本到语音，作为语音音频经由扬声器设备(例如，听筒、助听器或扬声器)被提供。在一些实施例中，还可以提供日志化结果。

虽然图19的方法1900被描述为具有特定顺序的操作，但是备选实施例可以以不同顺序的操作来执行方法1900。例如，标识用户(操作1920)和确定语言偏好(操作1930)可以在生成抄本之后或生成时(操作1940)以及在翻译抄本之前(操作1950)发生。

图20是计算机系统2000的框示意图，以经由多个分布式设备、边缘设备和基于云的设备来实现和管理智能会议的处理并且用于执行根据示例实施例的方法和算法。在各种实施例中不需要使用所有组件。

计算机2000形式的一个示例计算设备可以包括处理单元2002、存储器2003、可移除存储装置2010和不可移除存储装置2012。尽管示例计算设备被示出和描述为计算机2000，但是该计算设备在不同实施例中可以采用不同形式。例如，分布式设备可以是智能电话、平板计算机、智能手表或其他计算设备，其包括与关于图20示出和描述的相同或相似的元件。诸如智能电话、平板计算机和智能手表等设备通常被统称为移动设备、分布式设备或用户设备。

尽管各种数据存储元件被图示为计算机2000的一部分，但是存储装置还可以或可以备选地包括经由网络可访问的基于云的存储装置，诸如互联网或基于服务器的存储装置或智能存储设备(SSD)。还应当注意，SSD可以包括处理器，其中解析器在处理器上运行的，从而允许通过SSD与主存储器之间的I/O通道传输经过解析的过滤的数据。

存储器2003可以包括易失性存储器2014和非易失性存储器2008。计算机2000可以包括各种计算机可读介质，或者可以访问包括各种计算机可读介质的计算环境，该计算机可读介质诸如易失性存储器2014和非易失性存储器2008、可移除存储装置2010和不可移除存储装置2012。计算机存储装置包括随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM)或电可擦可编程只读存储器(EEPROM)、闪存或其他存储器技术、光盘只读存储器(CD ROM)、数字多用途磁盘(DVD)或其他光盘存储装置、磁盒、磁带、磁盘存储装置或其他磁性存储设备，或者能够存储计算机可读指令的任何其他介质。

计算机2000可以包括或可以访问包括输入接口2006、输出接口2004和通信接口2016的计算环境。输出接口2004可以包括诸如触摸屏等显示设备，该显示设备也可以用作输入设备。输入接口2006可以包括以下中的一种或多种：触摸屏、触摸板、鼠标、键盘、相机、一个或多个设备特定按钮、集成在计算机2000内或经由有线或无线数据连接耦合到计算机2000的一个或多个传感器，以及其他输入设备。该计算机可以使用通信连接在联网环境中操作以连接到一个或多个远程计算机，诸如数据库服务器。远程计算机可以包括个人计算机(PC)、服务器、路由器、网络PC、对等设备或其他公共数据流网络交换机等。通信连接可以包括局域网(LAN)、广域网(WAN)、蜂窝网络、Wi-Fi、Bluetooth或其他网络。根据一个实施例，计算机2000的各种组件与系统总线2020连接。

存储在计算机可读介质上的计算机可读指令可由计算机2000的处理单元2002执行，诸如程序2018。在一些实施例中，程序2018包括软件以实现一种或多种方法，方法用于实现会议应用和会议服务器，以及本文描述的模块、方法和算法。硬盘驱动器、CD-ROM和RAM是包括非瞬态计算机可读介质(诸如存储设备)的物品的一些示例。术语“计算机可读介质”和“存储设备”不包括载波，因为载波被认为是瞬态的。存储装置还可以包括网络存储装置，诸如存储区域网络(SAN)。计算机程序2018以及工作空间管理器2022可以用于引起处理单元2002执行本文中描述的一种或多种方法或算法。

示例：

1.一种计算机实现的方法，包括：经由从对应的多个分布式设备传送的多个音频流，接收表示语音的音频信号；经由神经网络模型，针对具有重叠语音的接收音频信号中的一个或多个音频信号执行连续语音分离；以及在固定数目的分离的输出音频通道上提供分离的语音。

2.根据示例1所述的方法，其中执行连续语音分离由神经网络模型执行，神经网络模型使用置换不变训练而被训练。

3.根据示例2所述的方法，其中神经网络模型被配置为接收变化数目的输入，以在多个用户之间的会议期间，支持音频信号的数目和分布式设备的位置的动态改变。

4.根据示例1-3中任一项所述的方法，其中多个设备在临时会议期间捕捉音频信号。

5.根据示例1-4中任一项所述的方法，其中音频信号经由网络在被耦合到分布式设备的会议服务器处被接收。

6.根据示例1-5中任一项所述的方法，并且还包括基于分离的音频通道生成抄本。

7.根据示例6所述的方法，并且还包括在生成的抄本中包括发言者归属。

8.根据示例7所述的方法，还包括将抄本发送到分布式设备中的一个或多个分布式设备。

9.根据示例1-8中任一项所述的方法，其中音频流中的至少两个音频流由环境捕捉设备提供，环境捕捉设备在固定定位处具有麦克风阵列。

10.一种机器可读存储设备，具有用于由机器的处理器执行的指令，使处理器执行操作以执行方法，操作包括：经由从对应的多个分布式设备传送的多个音频流，接收表示语音的音频信号；经由神经网络模型，针对具有重叠语音的接收音频信号中的一个或多个音频信号执行连续语音分离；以及在固定数目的分离的输出音频通道上提供分离的语音。

11.根据示例10所述的设备，其中执行连续语音分离由神经网络模型执行，神经网络模型使用置换不变训练而被训练。

12.根据示例11所述的设备，其中神经网络模型被配置为接收变化数目的输入，以在多个用户之间的会议期间，支持音频信号的数目和分布式设备的位置的动态改变。

13.根据示例10-12中任一项所述的设备，其中多个分布式设备包括与会议中的发言者相关联的无线设备。

14.根据示例10-13中任一项所述的设备，其中音频信号在经由网络耦合到分布式设备的会议服务器处被接收。

15.根据示例10-14中的任一项所述的设备，还包括基于分离的音频通道生成归属于发言者的抄本。

16.根据示例15所述的设备，还包括将抄本发送到分布式设备中的一个或多个分布式设备。

17.根据示例10-16中任一项所述的设备，其中音频流中的至少两个音频流由环境捕捉设备提供，环境捕捉设备在固定位置处具有麦克风阵列。

18.一种设备，包括处理器和存储器设备，存储器设备耦合到处理器并且具有存储在其上以用于处理器执行来执行操作的程序。操作包括：经由从对应的多个分布式设备传送的多个音频流，接收表示语音的音频信号；经由神经网络模型，针对具有重叠语音的接收音频信号中的一个或多个音频信号执行连续语音分离；以及在固定数目的分离的输出音频通道上提供分离的语音。

19.根据示例18所述的设备，其中执行连续语音分离由神经网络模型执行，神经网络模型使用置换不变训练而被训练，并且其中神经网络模型被配置为接收变化数目的输入，以在多个用户之间的会议期间，支持音频信号的数目和分布式设备的位置的动态改变。

20.根据示例18-19中任一项所述的设备，其中音频信号在经由网络耦合到分布式设备的会议服务器处被接收，并且其中会议服务器执行添加操作，包括：基于分离的音频通道，生成归属于发言者的抄本，并且将抄本发送到分布式设备中的一个或多个分布式设备。

虽然上面已经详细描述了几个实施例，但是其他修改也是可能的。例如，图中描绘的逻辑流程不要求所示的特定顺序或顺序的次序来实现期望的结果。从所描述的流程，可以提供其他步骤或者可以消除步骤，并且可以向所描述的系统添加或移除其他组件。其他实施例可以在所附权利要求的范围内。

Claims

1.一种计算机实现的方法，包括：

经由从对应的多个分布式设备传送的多个音频流，接收表示语音的音频信号；

经由神经网络模型，针对具有重叠语音的接收的所述音频信号中的一个或多个音频信号执行连续语音分离；以及

在固定数目的分离的输出音频通道上提供分离的所述语音。

2.根据权利要求1所述的方法，其中执行连续语音分离由所述神经网络模型执行，所述神经网络模型使用置换不变训练而被训练。

3.根据权利要求2所述的方法，其中所述神经网络模型被配置为接收变化数目的输入，以在多个用户之间的会议期间，支持音频信号的数目和分布式设备的位置的动态改变。

4.根据权利要求1所述的方法，其中所述多个设备在临时会议期间捕捉所述音频信号。

5.根据权利要求1所述的方法，其中所述音频信号经由网络在被耦合到所述分布式设备的会议服务器处被接收。

6.根据权利要求1所述的方法，并且还包括基于分离的所述音频通道生成抄本。

7.根据权利要求6所述的方法，并且还包括在生成的所述抄本中包括发言者归属。

8.根据权利要求7所述的方法，并且还包括将所述抄本发送到所述分布式设备中的一个或多个分布式设备。

9.根据权利要求1所述的方法，其中所述音频流中的至少两个音频流由环境捕捉设备提供，所述环境捕捉设备在固定定位处具有麦克风阵列。

10.一种机器可读存储设备，具有用于由机器的处理器执行的指令，使所述处理器执行操作以执行方法，所述操作包括：

在固定数目的分离的输出音频通道上提供分离的所述语音。

11.根据权利要求10所述的机器可读存储设备，其中执行连续语音分离由神经网络模型执行，所述神经网络模型使用置换不变训练而被训练。

12.根据权利要求11所述的机器可读存储设备，其中所述神经网络模型被配置为接收变化数目的输入，以在多个用户之间的会议期间，支持音频信号的数目和分布式设备的位置的动态改变。

13.根据权利要求10所述的机器可读存储设备，其中所述操作还包括基于分离的所述音频通道，生成归属于发言者的抄本。

14.根据权利要求13所述的机器可读存储设备，其中所述操作还包括将所述抄本发送到所述分布式设备中的一个或多个分布式设备。

15.一种设备，包括：

处理器；以及

存储器设备，被耦合到所述处理器并且在其上存储有程序，所述程序在由所述处理器执行时，使所述处理器执行权利要求1-9中任一项所述的方法。