CN114097027A

CN114097027A - 讲话者归属的记录稿生成

Info

Publication number: CN114097027A
Application number: CN202080028823.9A
Authority: CN
Inventors: 吉冈拓也; A·施特尔克; 陈卓; D·B·迪米特利亚迪斯; 曾南山; 秦莉娟; W·I·欣托恩; 黄学东
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2019-04-30
Filing date: 2020-03-19
Publication date: 2022-02-25
Also published as: US20200349950A1; EP3963576A1; EP3963576B1; US11322148B2; WO2020222935A1; EP4345816A2; US20220230642A1

Abstract

一种计算机实现的方法处理由多个分布式设备在会议期间记录的音频流。操作包括：由对应的语音识别系统对每个音频流执行语音识别，以生成话语级后验概率作为每个音频流的假设；对准假设，并且将其格式化为具有关联的词语级后验概率的词语混淆网络；由生成讲话者归属词语假设流的讲话者标识算法，对每个音频流执行讲话者识别；将具有关联的讲话者标签后验概率的讲话者假设和每个音频流的讲话者归属假设格式化为讲话者混淆网络；将来自所有音频流的词语和讲话者混淆网络彼此对准，以合并后验概率并且对准词语和讲话者标签；以及通过选择具有最高后验概率的词语和讲话者标签序列，创建最佳的讲话者归属的文字记录稿。

Description

讲话者归属的记录稿生成

背景技术

提前计划的会议可以利用在会议之前或在会议开始时设置的一个或多个会议工具来记录对话，并生成讲话者(speaker)归属的(attributed)记录稿(transcript)。这种现有的会议工具可以包括在位于会议桌上的设备的不同侧具有多个固定讲话者的设备。该设备可以具有塔状或圆锥状形状，并且可以具有可以被用于标识和追踪会议中的人的摄像机。语音(speech)到文本算法可以被用于创建记录稿。音频波束形成可以与固定讲话者的已知位置以及与会者的视频一起使用，以在记录稿中归属于语音。

发明内容

一种计算机实现的方法处理由多个分布式设备在会议期间记录的音频流，包括由一个或多个处理器执行的操作。操作包括：由对应的语音识别系统对每个音频流执行语音识别，以生成话语级后验概率作为针对每个音频流的假设；对准假设，并且将其格式化为具有关联的词语级后验概率的词语混淆网络；由讲话者标识算法对每个音频流执行讲话者识别，讲话者标识算法生成讲话者归属词语假设流；将具有关联的讲话者标签后验概率的讲话者假设和针对每个音频流的讲话者归属假设格式化为讲话者混淆网络；将来自所有音频流的词语和讲话者混淆网络彼此对准，以合并后验概率并且对准词语和讲话者标签；以及通过选择具有最高后验概率的词语和讲话者标签的序列，来创建最佳的讲话者归属的文字记录稿。

附图说明

图1是根据示例实施例的多个用户之间的会议的透视图。

图2是根据示例实施例的用于在会议中使用的用户设备的框图。

图3是图示了根据示例实施例的在具有关联分布式设备的两个用户之间发起智能会议的方法的流程图。

图4是图示了根据示例实施例的通过使用会议码将分布式设备添加到智能会议的方法的流程图。

图5是图示了根据示例实施例的将其他设备添加到智能会议的计算机实现的方法。

图6是图示了根据示例实施例的检测到正在发生临时会议的计算机实现的方法的流程图。

图7是图示了根据示例实施例的响应于用户离开会议从用户设备和其他设备移除音频通道的计算机实现的方法的流程图。

图8是图示了根据示例实施例的认证设备以将来自设备的音频流添加到由会议服务器实例处理的音频通道的计算机实现的方法的流程图。

图9是根据示例实施例的用于为多个用户之间的会议生成记录稿的系统的高级流程框图。

图10是图示了根据示例实施例的包括来自分布式设备的音频流的信息的分布式会议服务器处理的详细流程框图。

图11是图示了根据示例实施例的在智能会议期间同步从多个分布式设备接收的多个音频通道的计算机实现的方法的流程图。

图12是图示了根据示例实施例的在分布式设备智能会议中分离重叠语音的计算机实现的方法的流程图。

图13是图示了根据示例实施例的在处理期间在多个所选点处融合音频流的计算机实现的方法13的流程图。

图14A和图14B图示了根据示例实施例的示例环境捕获设备。

图15图示了根据示例实施例的麦克风阵列的示例放置。

图16图示了根据示例实施例的具有环境捕获设备的AI系统。

图17是图示了根据示例实施例的减少通过网络发送给会议服务器以用于生成记录稿的音频流的数量的计算机实现的方法的流程图。

图18是图示了根据示例实施例的用于使用来自分布式设备的视频和音频通道、视听数据两者以提供更好的讲话者标识的计算机实现的方法的流程图。

图19是图示了根据示例实施例的用于基于用户偏好定制输出的计算机实现的方法的流程图。

图20是实现一个或多个示例实施例的计算机系统的示意性框图。

具体实施方式

在以下描述中，参照形成其一部分并且通过图示的方式示出可以被实践的具体实施例的附图。这些实施例以足够细节描述以使本领域技术人员能够实践本发明，并且要理解的是，其他实施例可以被利用，并且结构、逻辑和电气改变可以在不脱离本发明的范围的情况下进行。因此，示例实施例的以下描述不是限制意义的，并且本发明的范围由所附权利要求限定。

在一个实施例中，本文描述的功能或算法可以在软件中实现。该软件可以包括存储在计算机可读介质或计算机可读存储设备上的计算机可执行指令，诸如一个或多个非瞬态存储器或其他类型的基于硬件的存储设备，无论是本地的还是联网的。进一步地，这种功能对应于模块，该模块可以是软件、硬件、固件或其任何组合。多个功能可以在一个或多个模块中根据需要执行，并且所描述的实施例仅是示例。软件可以在数字信号处理器、ASIC、微处理器或者在计算机系统(诸如个人计算机、服务器或其他计算机系统)上操作，将这种计算机系统转变为专门编程的机器的其他类型的处理器上执行。

功能性可以被配置为使用例如软件、硬件、固件等来执行操作。例如，短语“被配置为”可以指要实现关联功能性的硬件元件的逻辑电路结构。短语“被配置为”还可以指要实现固件或软件的关联功能性的编码设计的硬件元件的逻辑电路结构。术语“模块”是指可以使用任何合适的硬件(例如处理器等)、软件(例如应用等)、固件或者硬件、软件和固件的任何组合来实现的结构元件。术语“逻辑”涵盖用于执行任务的任何功能性。例如，流程图中图示的每个操作都对应于用于执行该操作的逻辑。操作可以使用软件、硬件、固件等来执行。术语“组件”、“系统”等可以指执行中的计算机相关实体、硬件和软件、固件或其组合。组件可以是在处理器上运行的过程、对象、可执行文件、程序、函数、子例程、计算机或者软件和硬件的组合。术语“处理器”可以指硬件组件，诸如计算机系统的处理单元。

此外，所要求保护的主题可以被实现为方法、装置或制品，其使用标准编程和工程技术来生产软件、固件、硬件或其任何组合以控制计算设备实现所公开的主题。本文使用的术语“制品”旨在涵盖从任何计算机可读存储设备或介质可访问的计算机程序。计算机可读存储介质可以包括但不限于磁性存储设备，例如硬盘、软盘、磁条、光盘、压缩盘(CD)、数字通用盘(DVD)、智能卡、闪存设备等。相比之下，计算机可读介质(即，不是存储介质)可以附加地包括通信介质，诸如用于无线信号的传输介质等。

被称为用户的个人可以在任何时间开始对话或会议。如果会议已经被安排，则布置可以被进行以记录对话并创建对话的记录稿以供稍后参考。然而，临时会议通常不涉及这种准备。停止会议或以其他方式花时间设置一种方法来记录对话并布置要被创建的记录稿可能会分散注意力，或者在会议期间可能不会被考虑。另外，临时会议通常在会议室外发生。在这种情况下，专门为会议设计的记录设备不可用。

在对话期间，对话的音频可以由用户可以携带的设备捕获，称为分布式设备。所捕获的音频信号可以通过无线通道被传输给会议系统，以识别多个用户正在进行被称为会议的对话，该对话可能已经或可能没有被计划。如果会议是计划外的，则可以被称为临时会议。

响应于已检测到或以其他方式布置的会议，会议实例在会议系统上生成，以识别来自可能正在说话的用户的语音并生成会议的记录稿。来自多个分布式设备的多个语音信号作为单独的音频通道接收，并被用于生成记录稿。分布式设备可以包括个人用户设备以及其他设备，包括数字助理、摄像头和能够接收可以在对话范围内的音频和/或视频的任何类型的设备。

在一些实施例中，会议可以经由会议app利用单次按下单个设备上的按钮来创建。其他设备和具有设备的用户可以通过经由会议app按下在用户设备上呈现的按钮或通过在不使用时被招募(例如房间中存在的现有会议设备)来加入会议。会议参与者可以通过话音(voice)指纹、参与设备的所有者、面部识别并且通过在任何点经由其设备上的会议应用手动添加用户(例如针对远程参与者)来推断。

存在会议可以被建立的许多不同方式。诸如智能电话等分布式设备可以与相应用户相关联，并且可以包括用于将从设备上的麦克风和/或摄像头接收的音频和/或视频流式传输给会议服务器的会议应用。从附近设备接收的音频将具有基于环境噪声和/或设备附近生成的任何声音的组合的音频签名。响应于两个用户设备经由它们相应的音频流(音频通道)提供类似的音频签名，会议系统识别可能正在发生会议，并创建会议实例来处理接收到的音频。用户可以经由其会议应用被提示加入会议，或者诸如位置信息、先前交互、日历信息或最近电子邮件交互等其他信息可以被用于例如确认两个用户或第三用户应该被添加到会议实例。

在其他实施例中，音频水印可以由一个或多个用户设备生成。音频水印可以包括音频签名或者可以被单独检测。音频水印可以是频率高于用户的正常听力范围的声音模式，诸如20Khz或更高，或者可以只是对于用户来说不显眼的声音，以免干扰对话。在其他实施例中，水印可以是完全可听和可识别的。在一些实施例中，水印可以被选择，以由期望确保会议实例在对话期间创建的用户发送。水印将由范围内的分布式设备接收，并自动或可选地被添加到会议实例。水印声音范围内的设备也可以将其音频流作为附加音频通道添加到会议实例。

会议码可以被生成，并被发送给其他用户以将其添加到计划的或临时的会议。会议码也可以在安排的会议之前选择，并在会议邀请中使用。在从用户设备接收到会议码时，一旦被实例化，会议系统就将来自这种用户设备的音频流添加到会议。在其他实施例中，多个分布式设备集群可以使用会议码来加入。该集群可以在不同位置，诸如不同的大厅、房间、城市国家等。

在一个实施例中，输出可以基于分布式系统中的用户偏好定制而被提供。在示例实施例中，会议服务器或系统从智能会议涉及的多个分布式设备接收音频流。智能会议仅是一个或多个设备被用于捕获语音并创建记录稿(可以具有讲话者归属)的会议。会议系统标识与多个分布式设备中的分布式设备相对应的用户，并且确定用户的首选语言。当会议发生时，来自接收到的音频流的记录稿被生成。会议系统将记录稿翻译为用户的首选语言，以形成翻译后的记录稿。翻译后的记录稿被提供给用户的分布式设备。在示例实施例中，翻译后的记录稿在会议发生时实时(或近实时)提供。翻译后的记录稿可以经由文本提供(例如显示在用户的设备上)或作为音频输出(例如经由讲话者、助听器、听筒)。在一些实施例中，代替翻译或除了翻译之外，其他类型的变换可以被应用于原始记录稿、翻译后的记录稿或翻译后的言话音频。

图1是多个用户之间的会议100的透视图。第一用户110具有第一设备115，其包括麦克风以捕获包括语音的音频。第二用户120具有也能够捕获音频(包括语音)的第二设备125。在一个示例会议100中，用户可以坐在桌子130旁。

第一设备115和第二设备125将所捕获的音频传输给会议服务器135，以处理和生成记录稿。会议可以是临时的，因为它是计划外的。用户可能在休息时遇到彼此，或者碰巧在走廊里相遇并决定谈论他们正在进行的项目。会议应用或会议app可以在第一设备和第二设备上运行。会议app可以被用于将音频提供给会议服务器135。

会议服务器135可以检测到两个设备正在发送音频，其具有类似的音频签名、音频水印、由两个设备提供的会议码或指示用户之间正在进行的讨论的其他信息。会议服务器135可以生成会议实例，以处理接收到的音频并生成记录稿。

在各种实施例中，水印可以是具有仅高于人类听觉范围的能量的任何类型的声音，该范围大约为20kHz，或者以其他方式是听不见的、不显眼的或不分散注意力的，其标识对应于会议100的会议实例或会议码。在其他实施例中，水印可以是对会议码或会议实例的其他标识进行编码的声音。

会议100可以涉及多于两个人，无论是计划的还是临时的。具有第三设备145的第三用户140也可以加入会议100。第三设备145还可以向分布式会议服务器135提供音频。音频可以通过所描述的相同机制中的一个或多个被识别为涉及会议100，以用于识别前两个用户/设备涉及会议100。

分布式设备的所有者/用户可以经由app登记他/她自己以由会议服务器135识别。用户可能已经具有称为话音指印或指纹的话音简档，以帮助会议服务器135将传入的语音声音与用户相关联。如果随机的人加入会议100，则会议服务器可以识别出该人未知，并且提示已经在会议中的一个或多个用户输入该人的姓名，或者还可以在与会议中的已知用户相关联的组织中搜索数据库，以将该人与简档相匹配。如果该人未知或以其他方式标识，则该人可以在所生成的记录稿中用标签或标注标识为讲话者1、讲话者2等，如果该人稍后被命名，则更容易修改记录稿。任何用户都可以在会议期间或之后的任何时间为讲话者标签指派名称。已经在会议中的那些人的已知联系人可以被用于减少用于最初检查该人以优化标识该人的过程的池/数据库。

可以有在会议100的音频或视觉范围内的附加设备，诸如数字助理148或专用会议设备150，两者都被示出在桌子130上，但是可以在会议100的音频范围内的任何地方。这种附加设备也可以被连接至分布式会议服务器135，并将它们的音频流添加到会议实例，以进行处理来进一步增强在会议服务器135上运行的会议实例的音频和语音到文本的处理能力。这种附加设备可以由服务器检测到，并且如上所述被添加到会议，或者可以作为添加到会议的选项被呈现给一个或多个用户。

摄像机155或其他摄像头可以具有涵盖会议100的视野。会议服务器135可能知道这种摄像头在会议100附近，并且可以向一个或多个用户提供指示，从而将从摄像头获得信息的选项提供给会议实例，以进一步增强记录稿的处理和提供。例如，这种摄像头可以被用于检测哪个用户正在说话，或至少提供用户可能在任何特定时间点说话的信息。

图2是用于在会议中使用的用户设备200的框图。可能参与会议的其他设备可能具有类似的组件集合。设备200包括至少一个麦克风210和用于执行被存储在存储器225上的会议app 220的处理器215。收发器230被用于将音频和/或视频从摄像头235流式传输给分布式会议服务器135。用户设备200还可以具有显示屏，诸如触摸屏240，其一部分被示出。

可能参与会议的设备可以经由日历条目、当前位置、NFC(在使电话靠得非常近之后)、

广告以及经由会议码或可以被生成并与会议100相关联的其他代码的直接邀请来标识。

会议服务器135可以经由多个会议实例同时处理多个会议。每个会议实例可以包括会议标识符，诸如会议码、正在流式传输音频的设备的标识、正在参与会议的用户的标识(经由用户关联的设备)，或通过以下方式由会议服务器识别：面部识别、话音识别或识别用户的其他方式。

图3是图示了在具有关联分布式设备的两个用户之间发起智能会议的方法300的流程图。在操作310中，音频水印经由与第一分布式设备相关联的麦克风在第一分布式设备处被接收。音频水印可以在会议期间由与第二分布式设备相关联的讲话者传输。在操作320中，对应于接收到的音频水印的数据经由第一分布式设备被传输给分布式设备会议服务器。要注意的是，接收到的音频水印首先可以被转换为数字形式，这可以简单地是将音频水印直接转换为声音的数字表示，或者可以包括对音频水印进行译码以获得标识会议或发出音频水印的第二分布式设备的数据。在操作330中，第一分布式设备已被接受到分布式设备会议服务器上的会议实例的指示可以从分布式会议服务器接收。在操作340中，响应于接收到的指示，第一分布式设备将会议的音频流式传输给分布式设备会议服务器上的会议实例。接收到的指示可以包括标识要使用的通信通道的信息，或者音频流可以简单地标识会议服务器用于将音频流引导到正确的会议实例的流式传输设备。

图4是图示了使用会议码将分布式设备添加到智能会议的方法400的流程图。在一些实施例中，与方法300中一样，会议码可以被编码在水印中。在操作410中，会议码经由第一分布式用户设备针对用户之间的会议生成。第一分布式用户设备可以从执行会议实例的会议服务器接收代码，或者可以经由在第一分布式用户设备上运行的会议app生成会议码。在操作420中，代码可以被发送给第二分布式用户设备。代码可以经由电子邮件、文本或电子发送数据的其他方式发送，或者可以被编码为可听信号(音频水印)并以声学方式传输给其余的参与设备，诸如经由用户设备中的一个用户设备的讲话者，诸如第一分布式用户设备。第二分布式用户可以向会议服务器会议实例提供会议码，由此在操作430中，会议码被用于标识至少一个第二分布式用户设备。在操作440中，第二分布式用户设备将音频从第一分布式用户设备和第二分布式用户设备流式传输给会议服务器会议实例。

会议可以是具有多个相应用户设备的多个用户之间的临时会议，并且会议码在临时会议开始之后生成。要注意的是，也可能存在没有关联用户设备的用户正在参与会议。其他用户设备和不与用户相关联的设备可以基于检测到的设备位置来标识。来自这种设备的数据可以通过向(多个)用户提供其他附近设备的列表来将其数据流添加到会议实例，并允许经由app的用户界面选择这种设备以添加到会议实例。可能参加会议的设备可以经由日历条目、当前位置、NFC(使电话靠得非常近)、蓝牙广告和直接邀请而被标识。

在其他实施例中，会议是具有多个相应用户设备的多个用户之间的计划会议，并且会议码在计划会议开始之前被生成。会议码可以被发送给用户设备中的每个用户设备，并由对应的app使用以向会议服务器会议实例标识设备，以在会议期间添加来自这种设备的数据流。

图5是将其他设备添加到智能会议的计算机实现的方法500。在操作510中，会议服务器从一组分布式设备接收音频流，其中音频流包括在两个或多个用户的会议期间由这组分布式设备捕获或检测到的语音。在操作520中，会议服务器从附加的或新的分布式设备接收与会议相对应的会议信息。新设备可以是用户刚加入会议的用户设备，或者新设备可以是房间中或智能会议范围内的设备。在操作530中，附加分布式设备被添加到会议服务器会议实例。响应于添加附加分布式设备，来自附加分布式设备的信息流在操作540中接收。

图6是图示了检测到正在发生临时会议的计算机实现的方法600的流程图。在操作610中，音频流在会议服务器处从两个分布式设备接收，这些音频流是在两个用户之间的临时会议期间检测到的流式传输音频。在操作620中，音频流被比较以确定音频流代表来自临时会议的声音。响应于确定音频流代表来自临时会议的声音，会议服务器在操作630中生成会议实例以处理音频流。在操作640中，音频流被处理以生成临时会议的记录稿。

音频流可以使用用于比较两个信号的许多不同算法来比较。在一个实施例中，比较通过计算两个信号之间的归一化互相关系数来执行。如果结果高于所选阈值，则音频流很可能来自同一(临时)会议。所选阈值可以是0和1之间的数字，并且可以基于在不同环境中的多个会议场景期间进行的测试凭经验选择。选择可以被执行，以获得假阴性和假阳性的期望平衡。流来自同一会议的其他指示包括设备的位置。其他指示包括过去有多次联系、在同一组织中的用户以及用户可能会面的其他指示。进一步的验证可以通过比较从音频流生成的文本来获得。

一旦流被成功比较，会议id(标识符)/代码可以被生成，并用于添加更多参与者。响应于其他设备流式传输与会议中已经存在的音频流成功比较的音频，其他参与者可以被添加。一旦设备被添加，该设备可以生成指示加入会议的信号，诸如ping。

用户也可以在来自其相应设备的音频流被添加到会议实例之前被认证。认证可能基于来自app的用户确认、日历信息、组织图表、会议码的使用、与会议中已经存在的用户的联系/关系的程度以及认证的其他方式。

在一个实施例中，会议服务器135检测设备和/或关联用户何时离开会议，并且从会议实例中移除音频流/通道。当与设备相关联的参与者离开会议时，会议服务器135检测到与会议中的其他设备相关联的音频信号不存在，并将设备从会议中移除。替代方案包括用户经由会议app发信号通知离开、关闭会议app、检测到设备位置不再在会议位置附近、检测到来自设备的视频流中没有对应的音频水印、检测到由设备接收到的音频签名不再与其他设备音频流的音频签名相匹配以及对来自视频信号的图像执行图像识别，以检测用户正在离开或已经离开正在进行会议的会议室或区域。类似地，会议实例可以响应于剩余单个用户或剩余单个用户设备来结束。

图7是图示了响应于用户离开会议从用户设备和其他设备移除音频通道的计算机实现的方法700的流程图。在操作710中，在从一组分布式设备(从分布式设备会议接收音频)接收的对应多个音频通道上接收的多个音频信号由会议服务器实例处理。会议服务器实例在操作720中被用于检测与分布式设备组中的第一设备相关联的第一用户已经离开分布式设备会议。在操作730中，第一分布式设备的音频通道从由会议服务器实例处理的多个音频通道中移除。

图8是图示了认证设备以将来自设备的音频流添加到由会议服务器实例处理的音频通道的计算机实现的方法800的流程图。方法800开始于在操作810中，在会议服务器处从多个分布式设备接收音频流，这些分布式设备在会议期间接收来自多个用户的语音。在操作820中，接收到的音频流经由在分布式设备会议服务器上执行的会议实例处理，以基于音频流中所包括的语音生成记录稿。在操作830中，信息在会议服务器处从与第一附加用户相关联的第一附加分布式设备接收，该信息对应于用户之间的会议。该信息可能对应于添加用户设备的请求，或者可能是通过注意来自这种设备的音频流包括水印或音频签名的暗示请求。在操作840中，第一附加分布式设备或关联用户被认证或以其他方式被授权加入会议。在操作850中，第一附加分布式设备将其音频流添加到会议实例。

基于话音指纹、会议组织者接受、使用会议码和/或新代码、检测到的设备位置、设备ID和/或关联的用户ID与授权列表的比较、组织成员检查、使用非公开会议标志要求组织者接受或以上的组合，参与者可以被授权加入会议。要注意的是，方法800也可以被应用于加入会议的前两个设备，并且也可以被应用于不与用户直接关联的设备，诸如会议室中的会议助理类型的设备或具有会议视野的摄像机。

远程参与者可以经由Skype或Teams或者电话拨入或任何其他电话会议应用被连接到会议中。如果像Skype等远程会议平台被使用，则会议可以通过跟随提前发出的链接加入。针对拨入，唯一的电话号码或访问代码(诸如会议码)可以被共享。一旦远程音频通道被连接至会议的服务器，它的处理方式类似于来自会议区域的音频流。如果讲话者ID基于登录过程已知，则音频流可能是单个讲话者，这意味着除非免提电话用多个远程用户使用，否则不需要语音分离。会议中由免提电话播放并由附近分布式设备捕获的音频应该从来自这种附近分布式设备的音频流中取消。

图9是用于为多个用户的会议生成记录稿的系统900的高级流程框图。用户可以具有关联设备910、912、914，这些设备被配备有麦克风以捕获音频，包括会议处的各个用户的语音，并将所捕获的音频作为音频信号提供给会议服务器，该会议服务器至少包括分别经由音频通道916、918和920的会议文稿转录器(transcriber)925。不同的设备可能有稍微不同的时钟周期和不同的处理时延量。另外，每个设备到服务器的连接通道可能有不同的时延。因此，来自音频通道916、918和920的信号不一定是同步的。

除了语音识别功能之外，会议文稿转录器925还可以包括同步功能。在一个实施例中，来自通道916、918和920的音频信号首先被同步然后被识别，从而产生与通道中的每个通道相关联的文本。然后识别输出被融合或以其他方式处理以生成记录稿940。然后记录稿940可以被提供回用户以进行查看。在其他实施例中，来自通道916、918和920的音频信号在语音识别之前被融合。融合后获得的音频信号被识别，从而产生单个文本以在记录稿中使用。在一些实施例中，记录稿可以以非常小的延迟提供。

在各种实施例中，结合讲话者标识和被分类以标识讲话者的记录稿生成一起使用的将音频信号转换为文本由会议服务器135提供。由服务器执行的功能包括同步、识别、融合和分类功能。虽然这种功能在图9中按顺序示出，但是在不同的实施例中，这些功能可以以不同的顺序执行。融合可以在识别之前执行，并且也可以在下面描述的各种其他点处执行。

图10是图示了通常在1000中的信息的会议服务器处理的详细流程框图，包括来自分布式设备的音频流。多个音频数据流1005从多个分布式设备接收。流包括M个独立的数据分组序列。第m个序列的每个分组包含由第m个设备捕获的数字化音频信号的片段。接收到的分组被拆包，并且来自分组的数据被重组以创建多通道信号。多通道信号可以被表示为：{[x₀(t),…,x_M-1(t)]；t＝0,1,…}。

同步音频通道：

多通道信号中的不同通道的数字化信号很可能不同步，因为许多分布式设备会受到数字信号处理差异、设备上软件时延差异以及信号传输速度差异的影响。所有这些差异可以合计，从而难以整合来自不同设备的信息以创建准确的记录稿。流同步模块1015接收多通道信号，并选择通道中的一个通道作为参考通道。不失一般性，第一通道可以被用作参考通道。针对参考通道，输出与输入相同，即，y₀(t)＝x₀(t)。针对第m个通道(0<m<M)，x_m(t)和x₀(t)之间的未对准量被估计并校正以生成y_m(t)。

未对准程度可以通过使用非参考通道信号的滑动窗口计算两个信号之间的归一化互相关系数并拾取提供最大系数值的滞后来估计。这可以通过使用缓冲器临时存储声学信号片段来实现，在这些声学信号片段上，互相关分析在参考通道和其他通道中的每个通道之间单独执行。代替归一化互相关，测量两个信号之间的对准程度的任何评分函数可以被使用。

在一个实施例中，相邻同步周期之间的关系被考虑在内。未对准是由两个因素引起的：设备/通道相关偏移和设备相关时钟漂移。即使两个设备同时捕获声学事件，由于DSP差异、设备上软件时延差异、信号传输速度差异等，由单个设备捕获的信号可能会在不同的时间到达服务器。这是设备/通道相关偏移。而且，由于制造可变性，不同的设备不可避免地具有稍微不同的时钟。因此，即使两个设备声称支持例如16kHz采样率，由这些设备记录的信号也不是100％对准的，并且未对准量会随着时间的推移而线性增长。这是设备相关时钟漂移。设备/通道相关偏移和设备相关时钟漂移被表示为S和D。第k个同步周期的时间差被表示为S+kD。因此，S和D的估计将提供对未对准程度S+kD的稳健估计。

未对准量可以通过使用上述互相关周期性地检测未对准并校正这种检测到的未对准来校正。另外，为了减少测量的未对准量，全局偏移(与设备/通道相关)和设备相关时钟漂移可以被计算以估计未对准程度。全局偏移可以被用于在通过互相关测量和校正未对准之前校正全局未对准。全局偏移可以被确定为随时间测量的未对准的平均值，并且很可能是设备中的时钟漂移的结果。因此，未对准程度通过简单地考虑与参考通道的差异来估计和校正。流同步可以以不同的间隔执行，诸如每30秒。小于或大于30秒的其他间隔可以在其他实施例中使用，因为网络时延可能会改变。

流同步模块1015将多通道同步信号{[y₀(t),…,y_M-1(t)]；t＝0,1,…}提供给波束形成模块1020。波束形成模块1020用于分离重叠语音。当会议中的两个人同时说话时，会发生重叠语音。在识别语音并将语音转换为文本之前，语音首先被分离到单独的通道中。因此，利用M通道输入，输出是N通道，并且被称为N通道波束形成信号{[z₀(t),…,z_N-1(t)]；t＝0,1,…}。流同步模块1015充当第一融合点，其中多个输出被生成以保留输入信息的多样性。在没有语音重叠的情况下，这种融合是可选的。

图11是图示了在智能会议期间同步从多个分布式设备接收的多个音频通道的计算机实现的方法1100的流程图。在操作1110中，代表流式传输语音的音频信号从多个分布式设备接收，以生成多个音频通道。音频通道中的一个所选音频通道在操作1120中被指定为参考通道。一旦参考通道被指定，以下操作对剩余音频通道中的每个音频通道执行。在操作1130中，与参考通道的时间差被确定。在操作1140中，每个剩余音频通道的时间通过将剩余音频通道与参考通道对准作为对应时间差的函数来对准或补偿。这可以通过简单地丢弃无关样本，移位信号，附加零或使用重采样技术来完成。

方法1100可以被周期性地执行以校正剩余音频通道的定时，诸如每30秒。在一个实施例中，方法1100包括用于校正至少由分布式设备中的不同时钟引起的全局偏移的其他操作。在操作1150中，全局偏移针对剩余音频通道中的每个音频通道确定。然后，在针对所确定的时间差校正每个剩余音频通道之前，在操作1160中，剩余音频通道通过每个对应的剩余音频通道全局偏移来校正。

几何形状不可知的波束形成：

声学波束形成(或简称波束形成)是一种通过减少诸如来自多声道音频信号的背景噪声等不想要的声音来增强目标语音的技术。它可以提高下游语音处理的准确性，诸如语音识别和讲话者分类。

针对具有从多个分布式设备流式传输的音频的智能会议，其相对于彼此的确切位置未知，传统的波束形成算法(诸如延迟求和波束形成、超指向波束形成和差分波束形成)不起作用。这种算法依赖于关于麦克风设备布置的先验知识，而这种先验知识无法用于分布式设备。

在一个实施例中，称为几何形状不可知的波束形成或盲波束形成的方法被用于执行分布式记录设备的波束形成。给定M个麦克风设备，对应于M个音频通道，语音和背景噪声的M维空间协方差矩阵被直接估计。矩阵分别捕获语音和噪声的空间统计数据。为了形成声束，M维空间协方差矩阵被反转。

无论是传统的基于几何形状的波束形成还是盲波束形成，波束形成方法的缺点是它通常将信息流的数量从M减少到1，这意味着下游模块无法利用由空间分布式设备提供的声学多样性。为了生成M个波束形成信号并保留声学多样性，留一法可以被采用。利用这种方法，第一输出信号是通过使用麦克风2-M执行波束形成来生成的。第二输出信号是用麦克风1和3-M生成的。这可以被重复M次，使得M个不同的输出信号被获得。针对每次波束形成，(M-1)维空间协方差矩阵被计算并反转，这对计算的要求很高。幸运的是，通过从原始M维逆矩阵导出所有(M-1)维逆矩阵，计算成本可以被显着降低。

分离重叠语音：

在一些实施例中，波束形成模块1020可以被配置为分离不同用户的重叠语音信号。这可以使语音识别和讲话者归属更加准确。在一个实施例中，分布式麦克风记录系统的连续语音分离是经由使用置换不变训练或其变型(诸如深度聚类或吸引子网络)训练的神经网络来执行的。为了潜在地节省计算，重叠检测可以被用于确定语音分离神经网络是否应该对每个时间段执行。如果重叠语音未在所选的时间段内检测到，则神经网络不会被执行，从而节省处理资源并允许记录稿更快速地实时产生。

语音分离神经网络模型被执行，以对分布式麦克风记录系统执行连续语音分离，其中输入麦克风的数量可以是任意的并且通过时间变化。神经网络模型被配置为接收不同数量的输入，以支持多个用户之间的会议期间的音频信号数量和分布式设备位置的动态变化。该模型输出两个连续的语音流。当有一个活动讲话者时，输出流中的一个输出流将是无声的，而当两个讲话者之间存在重叠语音时，每个讲话者将占用不同的输出流。

语音分离神经网络模型包含三个子模块：局部观察器、全局概括器和掩码重建器。多通道输入由这三个子模块连续处理。首先，相同的局部观察者被应用于每个输入麦克风。局部观察者包括堆叠的注意力层集合，其将每个麦克风输入映射为高维表示，其中每个通道将交叉比较并从所有其他通道中提取信息。两种不同类型的注意力被实现，即，自注意力和前馈注意力。

接下来，概括器被应用于概括来自每个观察者的信息，以形成不同输入通道上的全局表示。概括器的两个选项被探索，其是平均池化和置换不变排序算法，其中每个通道的表示与置换不变损失进行比较以对准它们的局部置换和全局置换。当没有概括层时，网络会用通道语音分离网络缩减，其中每个通道都有自己的分离(即，通道之间没有全局分离协定)。

最后，掩码重构器在任何任意时间同时对两个掩码输出进行排序。重建器包括长短期记忆网络的堆栈，并从每个时间点的概括生成最终的两个通道输出。

在从掩码重建器得到两个通道输出后，置换不变训练目标函数在重建的掩码和干净参考之间应用，其中输出和干净参考的每个置换对的欧几里德距离被首先测量，然后最小距离和对应的置换被选择以更新神经网络。

网络使用模拟的多通道数据训练，其中输入通道的数量为每个样本随机挑选(从2到10个通道)。利布里语音数据集在模拟中被应用为源数据。在每个模拟句子中，来自两个随机讲话者的两个话语被首先选择，然后每个话语用房间声学模拟处理，其中房间脉冲响应来自具有随机房间和位置设置的图像方法。重叠语音通过添加两个模拟语音生成，其预期重叠率为50％。1000小时的训练数据被模拟。Adam算法(一种用于训练深度学习模型的随机梯度下降的替换优化算法)被应用于更新神经网络。

语音分离的一种变化是语音重叠检测，其中任务被简化为仅检测记录语音中的重叠区域。该算法以类似的方式操作，其中网络接收N个通道作为输入，并连续输出两个通道作为输出。在重叠检测器中，网络不输出掩码，相反，它输出两个一维指标函数，其中1表示该通道中有一个活动讲话者，并且0表示静音。因此，当有两个活动讲话者时，两个输出流将全部具有1作为输出。当有一个活动讲话者时，任意通道将有1作为输出，并且另一个将有0。网络也在网络输出(即，指标函数)和参考指标之间使用置换不变训练目标进行训练。

图12是图示了在分布式设备智能会议中分离重叠语音的计算机实现的方法的流程图。在操作1210中，代表语音的音频信号经由与从对应的多个分布式设备传输的流式传输音频相对应的多个音频通道接收。连续语音分离在操作1220中对接收到的音频信号执行，以将来自同时说话的不同讲话者的语音分离到单独的音频通道中。在操作1230中，分离的音频通道被提供用于语音识别和记录稿的生成。在一个实施例中，操作1230提供固定数量的单独输出通道。由于麦克风输入的数量可能会有所不同，并且输出的数量是预先固定的，因此可能会出现有限数量的音频通道可以被容纳的实例，因为针对具有多个重叠讲话者的每个音频通道，每个讲话者会导致单独的音频通道。因此，如果输出音频通道的数量有限，则并非所有通道都可以分离讲话者。

在一个实施例中，操作1220中的语音分离由训练后的神经网络模型执行。神经网络模型使用置换不变训练或其变型训练。

图10中的波束形成模块1020的N个不同输出被提供给产生一系列senone后验概率的N个声学模型1025和1030。这种模型是众所周知的，并且通常是基于神经网络的。对来自分布式设备和/或波束形成器输出的多个音频通道中的每个音频通道使用声学模型为每个senone提供N个分数。

包括senones的分数在内的分数被提供给声学模型分数融合模块1035。单个输入通道的音频可以被常规地处理，以提供senones的序列及其后验概率。在将结果应用于多个语音识别(SR)译码器1040、1045之前，该结果使用模型分数融合模块1035组合。分数融合模块1035作为第二融合点操作，其组合多个信息源，并且同时生成多个输出以保留输入信息的多样性。两步骤过程涉及两个不同的神经网络(或分类器)：香草味声学模型和新的、更有针对性的声学模型。输出是senones数量的1倍的序列。要注意的是，分数融合模块1035使用声学模型(神经网络)的最后一层的输出作为输入。在其他实施例中，分数融合模块1035可以使用最后一层之前的任何层的输出。输入的大小可能与输出的大小不同。

来自声学模型分数融合模块1035的senones序列被提供给SR译码器1040和1045，SR译码器1040和1045中的每个SR译码器利用标准语音识别处理来为senones的每个片段提供n个最佳词语列表。开始时间和持续时间针对每个词语提供。分段可以基于话音活动检测、讲话者变化检测、固定间隔或一些其他合适的方法来执行。重新评分可以通过在译码器输出上使用神经网络语言模型(NNLM)来执行，以生成更好的n个最佳词语假设列表。

多个讲话者分类模块1050、1055接收SR译码器模块的输出作为每个片段的N个最佳列表。在一种实现中，仅顶部词语序列假设被使用。第一操作以固定间隔提取讲话者嵌入，诸如d向量(用于讲话者验证的深度神经网络的隐藏层激活)。第二操作将词语序列分解为讲话者同构的子片段。这可以利用凝聚聚类的变型、BIC(贝叶斯信息准则)或通过使用嵌入特征的其他方法来执行。第三操作通过比较子片段的讲话者嵌入与每个候选讲话者的嵌入的接近度(例如余弦相似度、负欧几里得距离)为上面获得的子片段中的每个子片段指派讲话者ID。所得输出是将讲话者标签指派给顶部SR假设的每个已识别词语。

假设组合模块1060接收来自N个SR译码器模块1040、1045(例如波束形成的音频通道)的n个最佳列表以及来自诸如波束形成/分离的音频通道的N个源的讲话者识别输出作为输入。假设组合模块1060通过对来自每个通道的n个最佳分数进行缩放和归一化并因此计算话语级后验概率来处理来自每个通道的n个最佳分数。n个最佳假设被对准到词语混淆网络中。通过添加与给定词语假设相关的话语级后验概率，词语级后验概率被获得。来自每个通道的讲话者识别输出被格式化为具有交替讲话者和词语标签的混淆网络。词语标签来自1个最佳识别假设，而讲话者标签表示与语音片段相匹配的1个最佳或n个最佳讲话者模型。讲话者假设的后验概率表示归一化的讲话者模型可能性。词语假设的后验被按比例缩小两个数量级，以免影响最终的词语识别，从而仅影响词语和讲话者标签的正确对准。因此从每个通道获得的混淆网络在必要时被截断和/或串联，以覆盖相同的时间窗口，如在线处理约束所规定的那样。输出包括混淆网络(CN)，从而对词语和讲话者假设及其后验概率进行编码。

词语和讲话者混淆网络根据最小编辑距离准则以及对对准节点之间的时间差异的惩罚来对准。这有效地将讲话者和词语假设合并到单个网络中，从而对匹配标签的后验求和。如果需要，通过在每个位置选择最高的后验标签，顶部讲话者和词语假设从组合的CN中读出。词语混淆网络可以从词语格而不是n个最佳列表构建，这取决于语音译码器的输出。

来自组合模块1060的输出是第三次融合的结果，称为后期融合，以产生文本和讲话者识别以生成会议的讲话者归属的记录稿。要注意的是，分别在波束形成模块1020和声学模型分数融合模块1035处的前两个融合步骤在各种实施例中是可选的。在一些实施例中，一个或多个音频通道可以被直接提供给声学模型评分模块1065，而无需波束形成或语音分离。语音识别然后经由SR译码器1070在一个或多个音频通道上执行，接着是讲话者分类模块1075，输出被直接提供给组合模块1060。

音频流可以在数字音频流同步之后通过几何形状不可知的波束形成或连续语音分离而早期融合。多个输出可以被生成，以保留输入信息多样性。后期融合可以在声学模型分数级别和/或文本级别/分类级别进行，以利用讲话者信息和不同的模型假设。在一个实施例中，对词语或两个词语的后期融合通过使用固定时间窗口来执行。在一个实施例中，时间窗口对应于显着音频事件，并且可以被固定在例如两秒。这种时间窗口被选择为相当短，以能够提供具有低时延的实时记录稿。

数据的后期融合通过对并行处理以产生短语的多个音频通道的语音识别来执行。从多个音频通道导出的短语被实时地组合。在一个实施例中，近似两秒的语音在假设组合模块1060处被组合。因此，音频流在它们被接收时被处理。两秒的非重叠滑动窗口被用于处理音频流，从而将会议服务器135记录稿生成的时延降低到接近于零。

单个语音识别译码器连续输出一些结果，并且基于假设组合模块1060，结果被立即处理。特殊提供针对流同步模块1015处的单个系统的对准提供，否则最终结果可能包含相同事件的多个实例(由于未对准)。无论信号和/或语音识别输出对准如何，后处理步骤都会移除可能存在的任何重复项。对准可以在信号的词语级或样本级执行。还要注意的是，不同版本的音频由语音识别译码器接收。每个SR译码器可能会听到不同的声音。通过将SR结果(后期融合)与低时延组合，高度准确的记录稿被产生。每个SR输出具有置信度的词语或两个词语。诸如两秒等时间足够长以获得一些显着输出，换言之，具有词语或两个词语的输出可以以某个置信度识别。固定的时间窗口(诸如两秒)被发现效果更好。如果时间太短，则没有显着事件，并且如果时间太长，则时延变得太长并且记录稿被延迟，使得记录稿在会议期间的实用性降低。

该方法的另一版本是等待音频流中的时间点，其中(1)所有流不包含高置信度的语音或(2)具有高置信度的单个词语假设。在这些地方，假设空间可以被压紧为单个假设，这使得在不因词语分段错误而损失准确性的情况下执行组合成为可能。

记录稿可以基于在1080中指示的输出被提供给会议参与者中的一个或多个。单个会议记录稿基于会议系统的输出提供。记录稿由个人话语和关联介质组成，诸如幻灯片或绘图照片。每个话语都被指派有通用时间戳、归属讲话者、关联文本和关联音频片段，其中音频是从来自所有参与客户端的同步输入流提取的。

附加介质(诸如图像、笔记和其他抽象对象)可以通过时间戳(例如白板图片在时间t捕获并上传)或没有具体时间戳的整个会议(例如文件在会议之后上传并与该会议实例相关联)内联与记录稿相关联。所有与会者都可以访问会议和关联数据。临时会议可以由会议所有者、所有与会者或任何人查看和修改，取决于由创建会议的实体设置的权限。附加服务(诸如会议概况、动作项目标识和主题建模)可以使用记录稿和其他关联的会议数据来提供。

多级融合

图13是图示了在处理期间在多个所选点处融合音频流的计算机实现的方法13的流程图。音频流在会议期间由多个分布式设备记录。方法13由执行操作的一个或多个处理器执行。操作1310由在一个或多个处理器上执行的对应语音识别系统对每个音频流执行语音识别，以生成话语级后验概率作为每个音频流的假设。在操作1320中，假设被对准和格式化为具有关联的词语级后验概率的词语混淆网络。操作1330通过执行生成讲话者归属词语假设流的讲话者标识算法对每个音频流执行讲话者识别。在操作1340中，讲话者假设与每个音频流的关联的后验讲话者标签后验概率和讲话者归属假设一起被格式化为混淆网络。操作1350将来自所有音频流的词语和讲话者混淆网络彼此对准，以合并后验概率并对准词语和讲话者标签。通过读出或选择具有最高后验概率的词语和讲话者标签的序列，最佳的讲话者归属的文字记录稿在操作1360中创建。

在一个实施例中，当仅来自每个流的单个词语假设被生成时，甚至可能没有后验概率，并且在简单投票在所有流之间使用的情况下，特殊近似版本被获得。

方法1300的操作可以在应用于音频流的连续时间窗口上执行，使得处理被递增地执行以便能够实时地产生讲话者归属词语识别假设。基于与为每个音频流生成的词语假设相关联的时间标记，输入假设在时间上被截断到应用于所有音频流的公共时间窗口。

输入讲话者和/或词语假设流可以源自经由N个音频流中的K个的融合的输入音频流的多个部分组合，其中K<N。备选地，输入讲话者和/或词语假设流不是源自不同的音频流，而是源自应用于N个音频流中的K个的声学模型的多个部分组合，这又可能由原始音频信号或音频信号的融合而导致。

在又一实施例中，基于与为每个音频流生成的词语假设相关联的时间标记，输入假设在时间上被截断到应用于所有音频流的公共时间窗口。N个原始音频信号中的K个的组合或音频信号的融合可以基于音频质量准则和/或基于讲话者相对于分布式设备的相对位置。

在一个实施例中，输入讲话者和/或词语假设流源自经由融合N个音频流中的K个的输入音频流的多个部分组合，其中K<N。N个声学模型输出中的K个的组合可以基于输入信号的音频质量准则和/或基于讲话者相对于分布式设备的相对位置。备选地，输入讲话者和/或词语假设流可以源自应用于N个音频流中的K个的声学模型的多个部分组合，其中K<N，这又由原始音频流或音频流的融合而导致。在又一实施例中，多个声学模型的输出可以被应用于N个音频流中的K个，其中K<N，这又由原始音频流或音频流的融合而导致，这些音频流被组合为M个语音识别译码器的输入。

减少环境捕获设备中的计算资源：

图14A和图14B图示了示例环境捕获设备1410。在实施例中，环境捕获设备1410可以是圆柱形的，鱼眼摄像头1411位于设备的顶部并相对于设备朝上。麦克风阵列1413可以被耦合至设备1410，其位于摄像头1411下方并放置在圆柱体周围来以360°捕获音频。应该注意的是，图14A中的设备可能未按比例绘制。为了捕获最优的360°视觉(例如视频或静止图像)，可能期望鱼眼摄像头靠近地板或桌子表面1450。在实施例中，设备可以是矮且宽的，以避免盲点在摄像头1411下方。在实施例中，鱼眼摄像头可以被放置在紧邻麦克风阵列1413的位置。在图14B所图示的示例中，七个麦克风1423A至1423G被包括在麦克风阵列1413中。如所示，六个麦克风1423A至1423F被放置在平面中的设备周围，并与设备的中心或多或少等距，并且第七麦克风1423G被放置在中心。要理解的是，该设备可以由音频可穿透材料制成，诸如轻质织物、格栅或网格，并且麦克风1423不会被鱼眼摄像头1421或设备1420的其他结构部分阻挡，使得声音没有被阻碍。

在实施例中，鱼眼摄像头可以离设备1420的底座近似30cm，并且麦克风阵列1413可以被粘附至底座1430上方近似15cm处。在操作时，设备1420可以位于或被粘附至环境中的地板或桌子1450上。由于设备1420被放置得更靠近地板，因此360水平视野(HFOV)可能包括更多的环境。鱼眼摄像头1421通常朝上被粘附至设备1420，因此天花板可能在视野内。要理解的是，设备1420的其他形状、大小或配置以及鱼眼摄像头1421和麦克风阵列1423的放置可以被实现，并进行一些适应以提供类似和不同的结果。

在实施例中，用于音频捕获的声学参数可以取决于麦克风的规范而变化。实施例的声学规范的示例在下面在表1中示出。在实施例中，声学参数可以应用于整个音频子系统(例如捕获的脉冲编码调制(PCM)数据)而不仅仅是麦克风。所捕获的音频可以产生足够的语音识别准确性以用于AI应用。受益于本公开的本领域普通技术人员将了解，各种声学参数可以被用于实现语音识别准确性，并且表1中的示例参数出于说明性目的。

表1.示例声学参数

图15图示了根据实施例的麦克风阵列1523的示例放置。在实施例中，该设备包括放置在同一平面中的七个麦克风。六个麦克风1523A至1523F可以以圆形或六边形图案被放置在平面中，距中心点近似4.25cm。第七麦克风1523G可以被放置在中心点。在实施例中，七个麦克风的配置包括类似规范的麦克风。要理解的是，当麦克风不同时，可能需要从麦克风阵列接收的音频数据的附加处理以归一化或调整音频。在示例实现中，麦克风阵列1523可以包括端口朝上的七个数字微机电系统(MEMS)麦克风。要理解的是，当麦克风没有被吸音或阻挡组件(诸如电路板或设备外壳)阻碍时，更好的性能可能会产生。在实施例中，类似的麦克风使用设备(未示出)中的相同时钟源来计时。音频的计时或时间戳可以辅助视听数据的同步和融合。环境捕获设备可以将所有麦克风信号抽取为16位16kHz PCM数据。在该上下文中，抽取是降低信号采样率的过程。针对自动语音识别，可能不需要高于8kHz的频带。因此，16kHz的采样率可能就足够了。抽取降低了比特率，而不会损害所需的准确性。在实施例中，捕获设备可以支持附加的位深度和采样频率。在实施例中，捕获设备可能不允许改变数据宽度和采样频率，以降低驱动器复杂性并提高稳定性。麦克风可以使用任何适当的机械阻尼机制(例如橡胶垫圈)来安装，以减少振动和噪声。要理解的是，麦克风阵列中可以存在更多或更少的麦克风。然而，较少的麦克风可能会引入讲话者位置或方向的一些不确定性。附加的麦克风可以提供更高的音频确定性或分辨率，但代价是更多的硬件和附加的计算复杂性。

在实施例中，音频讲话者可以位于设备的底部或底座以用于用户的音频反馈。音频讲话者可以被用于反馈公告或作为AI应用的集成部分。例如，在用于会议管理的AI应用中，用户可能会请求会议记要被读回到与会者。设备中的集成讲话者可以提供反馈或请求操作指令或命令。如果口头命令无法被理解，则重复命令的请求可以通过讲话者播放。为了减少声学反馈，音频讲话者可能面向与麦克风阵列相反的方向。经由音频讲话者播放的音频可以作为附加的同步麦克风通道回送。

参照回图14B，在实施例中，鱼眼摄像头1421可以接收360°HFOV和水平轴上方的至少95°竖直视野(HFOV)和水平轴下方的95°VFOV，导致190°VFOV，或近似200°对角线视野(DFOV)。在实践中，捕获设备可以被放置在桌子或地板上，因此可能不需要表面下方的竖直视图。因此，在本文的讨论中，VFOV被标识为近似95°，以指示设备水平基面上方的视图。在实施例中，鱼眼摄像头1421可以包括12兆像素(MP)的一个鱼眼传感器(例如提供4K分辨率)。摄像头镜头可以相对于其图像传感器安装，使得光学中心与图像传感器的中心对准，并且光轴垂直于图像传感器。摄像头模块与麦克风阵列的相对位置可以是固定的和已知的。具体地，光学中心也可以与麦克风阵列的中心对准，并且光轴垂直于麦克风阵列。

图16图示了具有上述环境捕获设备1610和会议服务器(称为云服务器1620)的AI系统1600。在示例中，用户1630与AI应用1623交互。要理解的是，AI应用可以驻留在云服务器1620或本地设备(未示出)上。视听数据可以由AI捕获设备1610以360°捕获。视听数据可以由AI捕获设备1610以360°捕获。如上面讨论的，捕获设备1610可以包括提供360°HFOV和大约95°VFOV的鱼眼摄像头1611。捕获设备1610可以包括麦克风阵列1613来以360°捕获音频。由摄像头1611接收的图像和视频流的视频压缩可以由设备上的处理器1615执行。视频模式以及压缩协议和准则可以由用户可选择的软件控件来控制。除了压缩之外，视听数据可以通过加密来保护，以防止未经授权的人获得数据。在实施例中，压缩1618可以由设备上的电路系统执行，并由软件开关控制。预处理1617(例如基于图像内容裁剪图像或降噪)可以由处理器所执行的逻辑在压缩1618之前执行。在实施例中，预处理可以包括声学回声消除(AEC)，以减少由耦合至设备的讲话者1612引起的反馈、噪声和回声。在实施例中，用于关键字发现(KWS)的本地过程可以被包括在内，以便监听用于环境捕获设备的设备命令，诸如唤醒或关闭设备。本地KWS可能有利于召回率与精度，并且它可能基于减小的麦克风阵列(例如两个麦克风而不是完整阵列)。当AEC在设备1610上执行时，包括讲话者音频的声道可能不需要被发送给模型，以执行传感器融合1621。压缩的视听数据可以由传输单元1619发送给云服务器1620。传输单元1619可以包括以下一项或多项：用于有线通信的网络接口卡，诸如以太网连接；使用无线协议的无线收发器，诸如

NFC；或其他通信部件。在实施例中，音频反馈可以经由无线通道中的一个无线通道被发送给设备。云服务器1620可以为AI应用1623执行传感器融合1621。因此，压缩可以被执行，以减少经由传输单元1619传输给云的带宽。

捕获设备1410可以与分布式设备一起使用以捕获来自分布式设备会议的音频和视频。设备1410本身可以是分布式设备中的一个分布式设备。在一个实施例中，与语音相关联的用户的标识可以由捕获设备1410单独执行，或者从捕获设备1410收集的信息流可以与从其他分布式设备收集的信息流一起使用以在各种实施例中生成讲话者归属的记录稿。

图17是图示了减少通过网络发送给会议服务器以用于生成记录稿的音频流的数量的计算机实现的方法1700的流程图。方法1700开始于在操作1710中从检测来自多个用户的会议的语音的三个或多个麦克风接收多个音频通道。在操作1720中，活动讲话者的方向被估计。语音分离模型被用于在操作1730中选择可以对应于初级麦克风和次级麦克风的两个通道，或者可以对应于融合的音频通道。两个所选的通道在操作1740中被发送给会议服务器，以生成智能会议记录稿。通过减少发送给会议服务器的数据量，带宽被节省。由于所选的数据可以说是最佳数据，因此几乎没有任何准确性丢失。

在一个实施例中，麦克风由处于固定配置的设备支撑。固定配置可以包括具有被配置为包括多个用户的视野的摄像头。定位声源可以通过执行在来自摄像头的音频和视频通道上训练的模型来执行。例如，如果一个用户使用具有摄像头的膝上型计算机，则膝上型计算机可以提供音频和视频通道。音频通道可以相对于参考音频通道同步，并且相同的时间差可以被用于同步视频通道。图像识别可以在视频通道上使用以将用户标识为讲话者，以便在产生记录稿时进行分类。在又一实施例中，膝上型计算机可以执行图像处理以确定用户正在说话，并在音频通道上提供将用户标识为讲话者并且指示用户是否正在说话的标注。该标注然后可以被用于分类，而无需从膝上型计算机传输视频通道。

在又一实施例中，麦克风与多个分布式设备相关联。分布式设备可以包括分别与多个用户相关联的无线设备。分布式设备中的至少一个可以包括提供至少一个用户的视频的摄像头。

在又一实施例中，麦克风包括以固定配置支持的麦克风以及与关联于用户的分布式设备相关联的麦克风。该方法可以由在固定位置支持麦克风的设备或接收多个音频通道的边缘设备中的一个或多个来执行。语音分离模型可以在边缘设备上执行。

在其他实施例中，客户端侧处理(在分布式设备、环境捕获设备和/或边缘服务器中的一个或多个上的处理)被用于减少会议服务器所需的计算资源以及减少用于处理来自分布式设备的分布式会议信息流的网络带宽量。除了如上所述减少经由网络发送给会议服务器的流数量之外，波束形成还可以在客户端侧执行以及生成音频水印和会议码。在其他实施例中，模型大小可以被减小和量化，以在客户端侧更好地运行。目标函数也可以被修改，以在客户端大小上更好地运行。代替输出语音掩码，声源定位可以用相应较少的计算使用。

音频和视频通道都可以被用于使语音归属于用户，以创建分类的记录稿。视听分类方法允许组合来自分布式传感器的话音标识、声源定位、面部追踪/标识和视觉活动讲话者检测，以实现稳健的分类。

图18是图示了用于使用来自分布式设备的视频和音频通道、视听数据两者以提供更好的讲话者标识的计算机实现的方法1800的流程图。方法1800开始于在操作1810中，在会议服务器上从智能会议中所包括的多个分布式设备的集合接收信息流。在操作1820中，代表至少两个信息流中的至少两个用户的语音的音频信号被接收。在操作1830中，信息流中的至少一个用户的至少一个视频信号被接收。在操作1840中，接收到的音频和视频信号被用于根据接收到的音频和视频信号将接收到的音频信号中的语音与具体用户相关联。在操作1850中，智能会议的记录稿被生成，其具有与语音相关联的用户的指示。

在一个实施例中，多个分布式设备是与智能会议中的用户相关联的移动无线设备。移动无线设备可以包括麦克风，并且还可以包括提供至少一个视频信号的摄像头。在其他实施例中，多个分布式设备包括具有以固定配置支持的多个麦克风的设备，每个麦克风提供接收到的音频信号中的一个音频信号。该设备可以包括具有被配置为在智能会议中包括多个用户并提供至少一个视频信号的视野的摄像头。

在一个实施例中，融合模型在接收到的音频和视频信号上使用，以将具体用户与语音相关联。在实施例中，视听数据可以由会议服务器分析。视听数据首先可以在经由网络发送给会议服务器之前被压缩。在另一实施例中，融合模型作为集成系统被耦合至捕获设备。本文的讨论出于说明目的而不是作为限制来描述会议服务器。

会议服务器根据需要对数据进行解压缩、译码或解密。视听数据可以由AI应用利用LSTM模型进行融合和分析，例如标识或推断视听数据中的特征，诸如但不限于：音频方向；图像中的讲话者位置；讲话者移动；话音签名；面部签名；手势；和/或对象。在示例中，AI应用可能需要话音识别或面部识别。(多个)LSTM模型可以使用传感器数据利用特定于AI应用的数据进行训练。在实施例中，多于一个模型或分析引擎可以被使用，如上面讨论的。

在实施例中，语音可以被标识，并且使用视频数据的手势识别可以被执行。LSTM模型可以使用所标识的语音和所识别的手势来提供数据的可能融合，并将可能的结果发送给AI应用。在示例中，与话音命令组合的手势可以向AI应用提供具体的控制命令。在示例中，视频数据的分析可以指示眼睛注视或追踪眼睛移动，以推断用户正在看哪里。眼睛注视分析可能会产生用于AI应用的控制命令，并且可能会基于与音频数据的融合而有所不同。在实施例中，LSTM模型可以针对具体的AI应用进行训练，并且基于融合数据为该应用提供控制或命令。在另一实施例中，LSTM模型可能更通用，并且向AI应用提供可能的相关数据，诸如具有讲话者ID的每个讲话者的音频流以及环境中的位置，以进行输入的进一步处理和解释。在该示例中，AI应用可以使用音频和视频流输入来导出适当的命令或执行动作。

一个实施例利用具有12MP传感器的鱼眼摄像头。另一实施例可以包括红外(IR)或其他深度传感器以提供三维(3D)或深度信息。如果没有足够的深度传感器来覆盖整个HFOV，则深度信息可能无法以360°可用。捕获设备的变化可以被提供以适应广泛的用户可接受的各种价格点，或者用于不同的应用。例如，包括深度传感器或高分辨率传感器可能会增加设备的成本或复杂性，超出所选AI应用所需的程度。

图19是图示了根据示例实施例的用于基于用户偏好定制输出的计算机实现的方法1900的流程图。方法1900中的操作由会议服务器或系统(例如会议服务器135)使用上述组件来执行。因此，方法1900是参照会议服务器通过示例描述的。然而，应该了解的是，方法1900的至少一些操作可以被部署在各种其他硬件配置上，或者由驻留在网络环境中的其他地方的类似组件执行。因此，方法1900不旨在被限于会议服务器。

在操作1910中，会议服务器从多个分布式设备接收音频流。在示例实施例中，音频流包括在两个或多个用户的会议期间由多个分布式设备中的一个或多个捕获的语音。在一些实施例中，会议是临时会议。在这些实施例中，服务器可以对接收到的音频流执行盲波束形成或连续语音分离，以将语音与背景噪声或同时说话的不同讲话者分离到单独的音频通道中。在一些情况下，音频流被比较，以确定音频流表示来自(相同)临时会议的声音。然后会议实例被生成，以处理被标识为来自临时会议的音频流。

在操作1920中，分布式设备中的一个分布式设备的用户的标识由会议服务器标识。在一个实施例中，用户基于由与会议相关联的摄像头(例如摄像头155、摄像头1521)捕获的视频信号来标识。视频信号被传输给会议服务器。会议服务器将来自视频信号的用户图像与已知(例如已注册)用户的存储图像进行比较以确定匹配。如果存储图像与视频信号中的用户的捕获图像相匹配，然后用户被标识。在一个实施例中，用户的图像被存储或与用户的用户简档相关联。

在替代实施例中，用户基于话音签名来标识。在该实施例中，来自音频流的语音被解析或分类，并与已知用户的存储的话音签名进行比较。如果存储的话音签名与来自音频流的解析/分类语音相匹配，那么用户被标识。在一个实施例中，用户的话音签名被存储或与用户的用户简档相关联。

在操作1930中，所标识的用户的语言偏好被确定。在一些实施例中，所标识用户的用户简档被访问。用户简档至少包括用户语言的预定偏好。在一些情况下，预定偏好由用户建立(例如明确指示)。在其他情况下，预定偏好基于与用户相关联的设备(例如分布式设备，诸如蜂窝电话或膝上型计算机)的设备配置来确定。例如，设备可以被配置为以英文或中文运作。

在操作1940中，会议服务器生成上面讨论的记录稿。在示例实施例中，来自音频流的语音被转换为文本，以生成基于文本的记录稿或数字记录稿。在一个实施例中，如上面讨论的，实时记录稿是基于短词序列生成的。数据的后期融合可以通过对并行处理以产生短语的多个音频通道的语音识别来执行。从多个音频通道导出的短语被实时或近实时地组合。在一个实施例中，近似两秒的语音被组合。因此，音频流本质上是在它们被接收时处理的。几秒(诸如两秒)的非重叠滑动窗口被用于处理音频流，从而减少记录稿生成的时延。

在操作1950中，会议服务器根据用户的语言偏好翻译记录稿。在一些实施例中，会议服务器从操作1940获取所生成的记录稿，并将所生成的记录稿中的文本翻译为首选语言的文本。在其他实施例中，会议服务器从操作1940获取所生成的记录稿，并将所生成的记录稿转换为首选语言的语音。更进一步地，一些实施例可以执行文本翻译和语音翻译两者。

在操作1960中，翻译后的记录稿被提供给用户的设备(例如分布式设备)。在一些实施例中，该设备包括被用于从用户捕获音频的相同设备。翻译后的记录稿可以例如作为显示在设备的显示设备(例如屏幕)上的文本或者作为通过使用文本到语音经由讲话者设备(例如听筒、助听器或扩音器)的言话音频来提供。在一些实施例中，分类结果也可以被提供。

虽然图19的方法1900被描述为具有以特定顺序的操作，但是替代实施例可以以不同顺序的操作来执行方法1900。例如，标识用户(操作1920)和确定语言偏好(操作1930)可以在记录稿被生成之后或被生成时(操作1940)并且在翻译记录稿之前(操作1950)发生。

图20是计算机系统2000的示意性框图，以实现和管理智能会议经由多个分布式设备、边缘设备和基于云的设备的处置，并且执行根据示例实施例的方法和算法。所有组件不需要在各种实施例中使用。

计算机2000形式的一个示例计算设备可以包括处理单元2002、存储器2003、可移除存储装置2010和不可移除存储装置2012。尽管示例计算设备被图示和描述为计算机2000，但是计算设备在不同实施例中可以是不同形式。例如，计算设备可以是智能手机、平板计算机、智能手表或者包括与关于图20图示和描述的元件相同或类似的元件的其他计算设备。诸如智能手机、平板计算机和智能手表等设备通常被统称为移动设备、分布式设备或用户设备。

尽管各种数据存储元件被图示为计算机2000的一部分，但是存储装置也可以或者备选地包括经由网络(诸如互联网)可访问的基于云的存储装置、基于服务器的存储装置或者智能存储设备(SSD)。还要注意的是，SSD可以包括处理器，在该处理器上，解析器可以被运行，从而允许通过I/O通道在SSD和主存储器之间传送解析后的滤波数据。

存储器2003可以包括易失性存储器2014和非易失性存储器2008。计算机2000可以包括或访问计算环境，该计算环境包括各种计算机可读介质，诸如易失性存储器2014和非易失性存储器2008、可移除存储装置2010和不可移除存储装置2012。计算机存储装置包括随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)或电可擦除可编程只读存储器(EEPROM)、闪存或其他存储器技术、压缩盘只读存储器(CD ROM)、数字通用盘(DVD)或者其他光盘存储装置、磁盒、磁带、磁盘存储装置或其他磁性存储设备或者能够存储计算机可读指令的任何其他介质。

计算机2000可以包括或访问计算环境，该计算环境包括输入接口2006、输出接口2004和通信接口2016。输出接口2004可以包括也可以用作输入设备的显示设备，诸如触摸屏。输入接口2006可以包括以下一项或多项：触摸屏、触摸板、鼠标、键盘、摄像头、一个或多个设备特定按钮、集成在计算机2000内或经由有线或无线数据连接耦合至计算机2000的一个或多个传感器和其他输入设备。计算机可以使用通信连接在联网环境中操作，以连接至一个或多个远程计算机，诸如数据库服务器。远程计算机可以包括个人计算机(PC)、服务器、路由器、网络PC、对等设备或者其他公共数据流网络开关等。通信连接可以包括局域网(LAN)、广域网(WAN)、蜂窝、Wi-Fi、蓝牙或其他网络。根据一个实施例，计算机2000的各种组件与系统总线2020连接。

存储在计算机可读介质上的计算机可读指令由计算机2000的处理单元2002可执行，诸如程序2018。在一些实施例中，程序2018包括软件以实现一种或多种方法来实现会议app和会议服务器以及本文描述的模块、方法和算法。硬盘驱动器、CD-ROM和RAM是物品的一些示例，包括非瞬态计算机可读介质，诸如存储设备。术语计算机可读介质和存储设备不包括载波到载波被认为过于瞬态的程度。存储装置还可以包括联网存储装置，诸如存储区域网络(SAN)。计算机程序2018以及工作空间管理器2022可以被用于使处理单元2002执行本文描述的一种或多种方法或算法。

示例：

1.一种处理由多个分布式设备在会议期间捕获的音频流的计算机实现的方法，包括由一个或多个处理器执行的操作。该操作包括：由对应的语音识别系统对每个音频流执行语音识别，以生成话语级后验概率作为针对每个音频流的假设；对准假设，并且将其格式化为具有关联的词语级后验概率的词语混淆网络；由讲话者标识算法对每个音频流执行讲话者识别，讲话者标识算法生成讲话者归属词语假设流；将具有关联的讲话者标签后验概率的讲话者假设和针对每个音频流的讲话者归属假设格式化为讲话者混淆网络；将来自所有音频流的词语和讲话者混淆网络彼此对准，以合并后验概率并且对准词语和讲话者标签；以及通过读出具有最高后验概率的词语和讲话者标签的序列，来创建最佳的讲话者归属的文字记录稿。

2.根据示例1的方法，其中该操作在被应用于音频流的连续时间窗口上被执行，使得处理被递增地执行以支持讲话者归属词语识别假设的实时产生。

3.根据示例1至2中任一项的方法，其中讲话者和/或词语假设流源自输入音频流的多个部分组合，多个部分组合经由N个音频流中的K个音频流的融合，其中K<N。

4.根据示例1至2中任一项的方法，其中讲话者和/或词语假设流源自声学模型的多个部分组合，多个部分组合被应用于N个音频流中的K个音频流，N个音频流又得自原始音频信号或音频信号的融合。

5.根据示例1至2中任一项的方法，其中基于与针对每个音频流生成的词语假设相关联的时间标记，词语和讲话者假设在时间上被截断到被应用于所有音频流的公共时间窗口。

6.根据示例5的方法，其中N个原始音频信号中的K个原始音频信号的组合或音频信号的融合基于音频质量准则和/或基于讲话者相对于分布式设备的相对位置。

7.根据示例1至2中任一项的方法，其中讲话者和/或词语假设流源自输入音频流的多个部分组合，多个部分组合经由N个音频流中的K个音频流的融合，其中K<N。

8.根据示例的方法，其中N个声学模型输出中的K个声学模型输出的组合基于输入信号的音频质量准则和/或基于讲话者相对于分布式设备的相对位置。

9.根据示例1至2中任一项的方法，其中输入讲话者和/或词语假设流源自声学模型的多个部分组合，多个部分组合被应用于N个音频流中的K个音频流，其中K<N，N个音频流又得自原始音频流或音频流的融合。

10.根据示例1至2中任一项的方法，其中多个声学模型的输出被应用于N个音频流中的K个音频流，其中K<N，N个音频流又得自原始音频流或音频流的融合，该音频流被组合为对M个语音识别译码器的输入。

11.一种机器可读存储介质具有指令，该指令用于由机器的处理器执行以使处理器执行操作，以执行处理由多个分布式设备在会议期间捕获的音频流的方法。该操作包括：由对应的语音识别系统对每个音频流执行语音识别，以生成话语级后验概率作为针对每个音频流的假设；对准假设，并且将其格式化为具有关联的词语级后验概率的词语混淆网络；由讲话者标识算法对每个音频流执行讲话者识别，讲话者标识算法生成讲话者归属词语假设流；将具有关联的讲话者标签后验概率的讲话者假设和针对每个音频流的讲话者归属假设格式化为讲话者混淆网络；将来自所有音频流的词语和讲话者混淆网络彼此对准，以合并后验概率并且对准词语和讲话者标签；以及通过读出具有最高后验概率的词语和讲话者标签的序列，来创建最佳的讲话者归属的文字记录稿。

12.根据示例11的方法，其中该操作在被应用于音频流的连续时间窗口上被执行，使得处理被递增地执行以支持讲话者归属词语识别假设的实时产生。

13.根据示例11的方法，其中讲话者和/或词语假设流源自输入音频流的多个部分组合，多个部分组合经由N个音频流中的K个音频流的融合，其中K<N。

14.根据示例11至12中任一项的方法，其中输入讲话者和/或词语假设流源自声学模型的多个部分组合，多个部分组合被应用于N个音频流中的K个音频流，N个音频流又得自原始音频信号或音频信号的融合。

15.根据示例11至12中任一项的方法，其中基于与针对每个音频流生成的词语假设相关联的时间标记，输入假设在时间上被截断到应用于所有音频流的公共时间窗口。

16.根据示例15的方法，其中N个原始音频信号中的K个原始音频信号的组合或音频信号的融合基于音频质量准则和/或基于讲话者相对于分布式设备的相对位置。

17.根据示例11至12中任一项的方法，其中输入讲话者和/或词语假设流源自输入音频流的多个部分组合，多个部分组合经由N个音频流中的K个音频流的融合，其中K<N。

18.一种设备包括处理器和存储器设备，该存储器设备被耦合至处理器，并且在其上存储有程序以由处理器执行，以执行操作来处理由多个分布式设备在会议期间捕获的音频流。该操作包括：由对应的语音识别系统对每个音频流执行语音识别，以生成话语级后验概率作为针对每个音频流的假设；对准假设，并且将其格式化为具有关联的词语级后验概率的词语混淆网络；由讲话者标识算法对每个音频流执行讲话者识别，讲话者标识算法生成讲话者归属词语假设流；将具有关联的讲话者标签后验概率的讲话者假设和针对每个音频流的讲话者归属假设格式化为讲话者混淆网络；将来自所有音频流的词语和讲话者混淆网络彼此对准，以合并后验概率并且对准词语和讲话者标签；以及通过读出具有最高后验概率的词语和讲话者标签的序列，来创建最佳的讲话者归属的文字记录稿。

19.根据示例18的设备，其中该操作在被应用于音频流的连续时间窗口上被执行，使得处理被递增地执行以支持讲话者归属词语识别假设的实时产生。

20.根据示例19的设备，其中讲话者和/或词语假设流源自输入音频流的多个部分组合，多个部分组合经由N个音频流中的K个音频流的融合，其中K<N。

尽管一些实施例已经在上面详细描述，但是其他修改也是可能的。例如，在附图中描绘的逻辑流程不需要所示的特定顺序或者相继顺序，以实现期望的结果。其他步骤可以被提供或者步骤可以从所描述的流程中消除，并且其他组件可以被添加到所描述的系统或者从所描述的系统中移除。其他实施例可以在以下权利要求的范围内。

Claims

1.一种处理由多个分布式设备在会议期间捕获的音频流的计算机实现的方法，包括由一个或多个处理器执行的操作，所述操作包括：

由对应的语音识别系统对每个音频流执行语音识别，以生成话语级后验概率作为针对每个音频流的假设；

对准所述假设，并且将其格式化为具有关联的词语级后验概率的词语混淆网络；

由讲话者标识算法对每个音频流执行讲话者识别，所述讲话者标识算法生成讲话者归属词语假设流；

将具有关联的讲话者标签后验概率的讲话者假设和针对每个音频流的讲话者归属假设格式化为讲话者混淆网络；

将来自所有音频流的所述词语和讲话者混淆网络彼此对准，以合并所述后验概率并且对准词语和讲话者标签；以及

通过读出具有最高后验概率的词语和讲话者标签的序列，来创建最佳的讲话者归属的文字记录稿。

2.根据权利要求1所述的方法，其中所述操作在被应用于所述音频流的连续时间窗口上被执行，使得所述处理被递增地执行以支持所述讲话者归属词语识别假设的实时产生。

3.根据权利要求2所述的方法，其中所述讲话者和/或词语假设流源自输入音频流的多个部分组合，所述多个部分组合经由N个音频流中的K个音频流的融合，其中K<N。

4.根据权利要求2所述的方法，其中所述讲话者和/或词语假设流源自声学模型的多个部分组合，所述多个部分组合被应用于N个音频流中的K个音频流，所述N个音频流又得自原始音频信号或音频信号的融合。

5.根据权利要求2所述的方法，其中基于与针对每个音频流生成的所述词语假设相关联的时间标记，所述词语和讲话者假设在时间上被截断到被应用于所有音频流的公共时间窗口。

6.根据权利要求5所述的方法，其中N个原始音频信号中的K个原始音频信号的组合或所述音频信号的融合基于音频质量准则和/或基于所述讲话者相对于所述分布式设备的相对位置。

7.根据权利要求1所述的方法，其中所述讲话者和/或词语假设流源自输入音频流的多个部分组合，所述多个部分组合经由N个音频流中的K个音频流的融合，其中K<N。

8.根据权利要求7所述的方法，其中N个声学模型输出中的K个声学模型输出的组合基于所述输入信号的音频质量准则和/或基于所述讲话者相对于所述分布式设备的相对位置。

9.根据权利要求1所述的方法，其中所述输入讲话者和/或词语假设流源自声学模型的多个部分组合，所述多个部分组合被应用于N个音频流中的K个音频流，其中K<N，所述N个音频流又得自原始音频流或音频流的融合。

10.根据权利要求1所述的方法，其中多个声学模型的所述输出被应用于N个音频流中的K个音频流，其中K<N，所述N个音频流又得自原始音频流或音频流的融合，所述音频流被组合为对M个语音识别译码器的输入。

11.一种具有指令的机器可读存储设备，所述指令用于由机器的处理器执行以使所述处理器执行根据权利要求1至10中任一项所述的方法。

12.一种设备，包括：

处理器；以及

存储器设备，被耦合至所述处理器并且在其上存储有程序，所述程序在由所述处理器执行时使所述处理器执行根据权利要求1至10中任一项所述的方法。