CN112075075A

CN112075075A - 用于会议的计算机化智能助理

Info

Publication number: CN112075075A
Application number: CN201980030272.7A
Authority: CN
Inventors: A·迪亚曼特; K·马斯特本-多尔; E·克鲁普卡; R·哈雷; Y·斯莫林; I·古维奇; A·赫维兹; 秦莉娟; 熊炜; 张世雄; 吴凌峰; 肖雄; I·莱希特尔; M·大卫; X·黃; A·K·阿加瓦尔
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2018-05-04
Filing date: 2019-04-27
Publication date: 2020-12-11
Anticipated expiration: 2039-04-27
Also published as: US20230402038A1; US20210210097A1; US10867610B2; US20190341050A1; CN112075075B; WO2019212920A1; EP3788780A1; US11688399B2

Abstract

一种用于促进远程会议的方法包括：接收数字视频和计算机可读音频信号。面部识别机被操作为识别数字视频中的第一会议参与者的面部，语音识别机被操作为将计算机可读音频信号转换为第一文本。归属机将该文本归属于第一会议参与者。类似地，对第二计算机可读音频信号进行处理，以获得归属于第二会议参与者的第二文本。转录机自动地创建包含归属于第一会议参与者的第一文本和归属于第二会议参与者的第二文本的转录本。

Description

用于会议的计算机化智能助理

背景技术

个人和组织经常安排由多个本地和/或远程用户参加的会议，以共享信息并计划和报告任务与承诺。此类会议可能包括利用多种不同的方式来共享信息，例如这些方式包括口头和文本对话、共享视觉图像、共享数字文件、手势和非语言暗示。

发明内容

提供本概括部分以便用简化的形式介绍将在以下的详细描述中进一步描述的概念选择。本概括部分并不是旨在标识本发明的关键特征或本质特征，也不是使用该概括部分来限制本发明的保护范围。此外，本发明并不限于解决本公开内容的任何部分中陈述的任何或所有缺点。

一种用于促进远程会议的方法包括：接收数字视频和计算机可读音频信号。面部识别机被操作为识别数字视频中的第一会议参与者的面部，语音识别机被操作为将计算机可读音频信号转换为第一文本。归属机将该文本归属于第一会议参与者。类似地，对第二计算机可读音频信号进行处理，以获得归属于第二会议参与者的第二文本。转录机自动地创建包含归属于第一会议参与者的第一文本和归属于第二会议参与者的第二文本的转录本。可以将转录扩展到各种场景以协调会议，促进会议参与者之间的交流，在会议期间记录感兴趣的事件，跟踪白板图和在会议期间共享的数字文件，并且更一般地创建会议参与者之间多模式交互的可靠记录。参与者可以使用会议转录本，来审查各种多模式交互以及在会议中发生的其它感兴趣的事件。可以对会议转录本进行分析，以向会议参与者提供有关自己参加会议、其他参与者以及团队/组织趋势的反馈。

附图说明

图1A到图1C描绘了包括示例性计算机化会议助理的计算环境。

图2示意性地示出了通过声源定位机对声音信号的分析。

图3示意性地示出了由波束成形机对声音信号的波束成形。

图4示意性地示出了面部检测机对人脸的检测。

图5示意性地示出了面部识别机对人脸的识别。

图6示意性地示出了示例性的分割(diarization)框架。

图7是分割机的示例性输出的视觉表示。

图8示意性地示出了语音识别机对话语的识别。

图9示出了由计算机化会议助理进行的分割的例子。

图10示出了示例性会议转录本。

图11示意性地示出了语音识别机在分割机的下游的示例性分割框架。

图12示意性地示出了语音识别机在分割机的上游的示例性分割框架。

图13示出了计算机化智能助理在多个会议参与者的协助下协调会议的示例性会议环境。

图14示出了一种利用计算机化智能助理促进会议的方法。

图15到图19示出了计算机化智能助理通知用户有关感兴趣的会议事件的示例性用例。

图20示出了计算机化智能助理向会议参与者提供反馈的示例性用例。

图21示出了计算机化智能助理帮助用户找到会议室的示例性用例。

图22示出了一种示例性计算系统。

具体实施方式

概括地说，本公开内容涉及使用计算机化智能助理向会议参与者提供智能协助。会议参与者可以包括亲自出席会议位置的亲自参加者、以及通过与亲自参加者的远程音频、视频、文本和/或多模式交互来参加的远程参与者。在一些例子中，计算机化智能助理可以接收和处理自然语言输入(例如，会议参与者之间的对话、用户命令和其它语音)。自然语言输入可以包括语音音频、词汇数据(例如，文本)和/或包括手势的非语言暗示。在一些例子中，计算机化智能助理可以将自然语言输入作为命令来处理，例如，以便控制本地和/或远程参与者之间的记录和/或中介对话。举例而言，“剪切”手势可以用于停止录制，“举手”手势可以用于向远程参与者发送有关本地参与者正在请求发言的通知。在一些例子中，也可以使用来自一个或多个传感器的数据来处理自然语言输入。在一些例子中，计算机化智能助理可以与会议参与者进行对话，例如，提出歧义问题，提供对接收/处理后的输入的确认，和/或提供与协调会议有关的描述或指示。计算机化智能助理可以处理自然语言数据以生成与会议有关的身份、位置/定位、状态/活动和/或其它信息(例如，在会议期间由会议参与者中的一个或多个共享的信息、和/或与会议参与者中的一个或多个相关的信息)。会议助理可以基于会议时间表并基于跟踪参与者的到来和/或离开，来协调会议的开始和/或结束。例如，会议助理可以向会议参与者打招呼，向他们通知会议日程和/或议程等等。会议助理可以记录和/或转录会议参与者之间的各种多模式交互。例如，会议助理可以跟踪在白板处共享的图像，并且可以处理图像以显示这些图像的相关变化，同时消除遮挡和视觉伪影。会议助理可以跟踪会议参与者共享的数字文件，包括跟踪在会议的特定时刻正在编辑文件的哪些区域。更一般地，会议助理可以基于诸如手势之类的提示、基于提及的参与者的姓名、基于对一个或多个参与者感兴趣的话题的讨论、或者基于对会议助理跟踪的会议参与者之间的任何其它各种多模式交互的人工智能分析，跟踪会议中感兴趣的事件。可以将各种感兴趣的事件用作会议转录本中的索引，以便会议参与者可以轻松地找到转录本中的相关部分。因此，会议助理可以有助于不能亲自参加会议的远程会议参与者、或者无法实时参加会议的非参与者方便地(例如，在会议结束后)查看会议。

此外，可以通过以下方式，自动地分析会话转录本和其它跟踪信息以协调会议：将会议的转录本提供给会议参与者以供后续查看，跟踪会议参与者的到达和离开，在会议期间向会议参与者提供提示，和/或分析信息以总结会议的一个或多个方面以便后续查看。

图1示出了示例性会议环境100，其包括围绕会议桌104开会的三个会议参与者102A、102B和102C。计算机化会议助理106在会议桌104上，准备促进会议参与者之间的会议。符合本公开内容的计算机化会议助理可以配置有旨在促进生产性会议的多种特征。虽然下面的描述使用计算机化会议助理106举一个例子性计算机，但是其它计算机或计算机的组合也可以被配置为利用下面所描述的技术。因此，本公开内容绝不限于计算机化会议助理106。

图1B示意性地示出了计算机化会议助理106的相关方面，以下将对其中的每一个进行讨论。尤其相关的是，计算机化会议助理106包括麦克风108和摄像机110。

如图1A中所示，计算机化会议助理106包括七个麦克风108A、108B、108C、108D、108E、108F和108G的阵列。如图1C中所示，这些麦克风108a被配置为定向记录声音，并将可听见的声音转换为计算机可读音频信号112(即，分别为信号112a、112b、112c、112d、112e、112f和112g)。“计算机可读信号”和“计算机可读音频信号”在本文可以指代适于由一个或多个计算设备进行进一步处理的任何音频信号(例如，模拟和/或数字电信号)。因此，可以使用模数转换器和可选的数字编码器将声音转换为计算机可读音频信号。在一些例子中，例如，通过选择信号的特定持续时间和/或特定时间部分，通过选择信号的特定通道(例如，左或右通道、或麦克风阵列的特定麦克风)，通过选择信号的特定频率(例如，低通滤波器、高通滤波器或带通滤波器)，和/或通过选择信号的特定空间分量(例如，通过对信号进行波束成形，如本文所述)，可以将计算机可读信号划分为多个部分以进行后续处理。麦克风108A-F在计算机化会议助理106周围等距地分布，并旨在定向地录制来自麦克风前面的声音。麦克风108g位于其它麦克风之间并朝向上方。

在一些实施方式中，计算机化会议助理106包括360°摄像机，该摄像机被配置为将一个或多个电磁波段的光(例如，可见光、红外和/或近红外)转换为360°数字视频114或其它适当的可见光、红外、近红外、光谱和/或深度数字视频。在一些实施方式中，360°摄像头可以包括鱼眼镜头(其将来自计算机化会议助理106周围所有方位角的光重定向到单个光传感器矩阵)、以及用于将来自传感器的独立测量结果映射到360°数字视频114中的相应像素矩阵的逻辑。在一些实施方式中，两个或更多个协作摄像机可以拍摄重叠在一起的子图像，并将这些子图像缝合在一起成为数字视频114。在一些实施方式中，摄像机110具有小于360°的集合视野和/或两个或更多个原始视角(例如，从房间的四个角指向房间中心的摄像机)。将360°数字视频114示出为基本上是矩形的，没有明显的几何变形(尽管这不是必需的)。

简要返回到图1B，计算机化会议助理106包括声源定位(SSL)机120，其被配置为基于信号112来估计声音的位置。图2示意性地示出了SSL机120，其中SSL机120分析信号112a-g以输出由信号112a-g建模的声音的估计起源140。如上所述，分别由麦克风108a-g产生信号112a-g。每个麦克风具有不同的物理位置和/或指向不同的方向。相对于接近和/或指向声源的麦克风，远离声源和/或指向偏离声源的麦克风将产生相对较低的振幅和/或稍微相位延迟的信号112。举一个例子，虽然麦克风108a和108d可以响应于相同的声音分别产生信号112a和112d，但是如果记录的声音起源于麦克风108a的前面，则信号112a具有可测量的更大的幅度。类似地，由于声音到麦克风108d的传播时间(ToF)更长，因此信号112d的相位可以在信号112a之后。SSL机120可以使用信号112a-g的幅度、相位差和/或其它参数来估计声音的起源140。SSL机120可以被配置为实现任何适当的二维或三维定位算法，其包括但不限于先前训练的人工神经网络、最大似然算法、多信号分类算法和跨功率谱相位分析算法。根据在特定应用中使用的算法，SSL机120可以输出角度、矢量、坐标和/或其它参数来估计声音的起源140。

如图1B中所示，计算机化会议助理106还包括波束成形机122。波束成形机122可以被配置为将源自特定区域(例如，0-60°弧度)的声音与源自其它区域的声音隔离。在图3所示的实施例中，波束成形机122被配置为隔离六个相等大小的静态区域中的任何一个中的声音。在其它实施方式中，可以存在更多或更少的静态区域、动态大小的区域(例如，聚焦的15°弧)、和/或动态瞄准的区域(例如，以9°为中心的60°区域)。可以使用任何适当的波束成形信号处理，从所获得波束成形的信号150中减去源自所选区域的声音。在利用动态波束成形的实施方式中，可以将各个讲话者的位置用作选择各个波束成形区域的数量、大小和中心的标准。举一个例子，可以选择区域的数量等于讲话者的数量，并且每个区域可以以讲话者的位置为中心(例如，通过面部识别和/或声源定位来确定)。在一些实施方式中，波束成形机可以被配置为独立并同时地监听两个或更多不同的区域，并且并行地输出两个或更多不同的波束成形信号。这样，可以独立地处理两个或更多个重叠/打扰的讲话者。

如图1B中所示，计算机化会议助理106包括面部定位机124和面部识别机126。如图4中所示，面部定位机124被配置为在数字视频114中查找候选面部166。举一个例子，图4示出了面部定位机124找到位于23°的候选面部(1)、位于178°的候选面部(2)和位于303°的候选面部(3)。面部定位机124输出的候选面部166可以包括围绕所定位的面部图像的边界框的坐标、面部所在的数字图像的一部分、其它位置信息(例如，23°)和/或标记(例如，“面部(1)”)。

面部识别机126可以可选地被配置为通过仅分析数字视频114中已找到候选面部166的部分，来确定每个候选面部166的身份168。在其它实施方式中，可以省略面部定位步骤，并且面部识别机可以分析数字视频114的较大部分以识别面部。图5示出了面部识别机126将候选面部(1)识别为“Bob”，将候选面部(2)识别为“Charlie”，并且将候选面部(3)识别为“Alice”的例子。虽然没有示出，但是每个身份168可以具有相关联的置信度值，并且可以为同一张面孔找到两个或更多个具有不同置信度值的不同身份168(例如，Bob(88％)、Bert(33％))。如果不能发现具有至少阈值置信度的身份，则该面部可以仍然保持未识别和/或可以被赋予通用唯一身份168(例如，“客人(42)”)。可以将语音归属于这种通用唯一身份。

当使用时，面部定位机124可以采用最新技术和/或未来机器学习(ML)和/或人工智能(AI)技术的任何适当的组合。可以在面部定位机124的实现中并入的技术的非限制性示例包括支持向量机、多层神经网络、卷积神经网络(例如，包括用于处理图像和/或视频的空间卷积网络)、递归神经网络(例如，长短期记忆网络)、关联存储(例如，查找表、哈希表、Bloom过滤器、神经图灵机和/或神经随机存取存储器)、无监督的空间和/或聚类方法(例如，最近邻居算法、拓扑数据分析和/或k均值聚类)和/或图形模型(例如，Markov(马尔克夫)模型、条件随机字段和/或AI知识库)。

在一些例子中，可以使用一个或多个可微分函数来实现面部定位机124所利用的方法和过程，其中可以关于可微分函数的输入和/或输出来计算和/或估计可微分函数的梯度(例如，关于训练数据和/或关于目标函数)。可以至少部分地通过一组可训练参数来确定这些方法和处理。因此，可以通过任何适当的训练过程来调整可训练参数，以便持续改善面部定位机124的功能。

用于面部定位机124的训练过程的非限制性示例包括监督训练(例如，使用梯度下降或任何其它适当的优化方法)、零击、少击、无监督的学习方法(例如，基于从无监督聚类方法导出的类别的分类)、强化学习(例如，基于反馈的深度Q学习)和/或基于生成的对抗神经网络训练方法。在一些例子中，可以关于目标函数，同时对面部定位机124的多个组件进行训练，其中该目标函数测量所述多个组件的集体功能的性能(例如，关于增强反馈和/或关于标注的训练数据)，以改善这种集体功能。在一些例子中，面部定位机124的一个或多个组件可以独立于其它组件(例如，对历史数据的离线训练)来训练。例如，可以通过对标注的训练数据的监督训练，并且关于目标函数，来训练面部定位机124，其中标注的训练数据包括具有指示在这些图像中存在的任何面部的图像，并且与标注的训练数据中指示的面部的实际位置相比，目标函数指示面部定位机124对面部进行定位的准确性、精确度和/或召回度。

在一些例子中，面部定位机124可以采用被配置为对输入与一个或多个预定义的、随机的和/或学习的卷积核进行卷积的卷积神经网络。通过对卷积核与输入矢量(例如，表示数字视频114)进行卷积，卷积神经网络可以检测与卷积核相关联的特征。例如，可以将卷积核与输入图像进行卷积，以基于具有多个不同的卷积核的各种卷积运算，来检测诸如线条、边缘、角等等之类的低级别视觉特征。可以通过池化层(例如，最大池化)来处理各种卷积运算的卷积输出，其中池化层可以检测输入图像的一个或多个最显著特征和/或聚合输入图像的显著特征，以便在输入图像中的特定位置检测输入图像的显著特征。可以通过其它卷积层进一步处理池化层的池化输出。进一步卷积层的卷积核可以识别较高级别的视觉特征，例如形状和图案，以及更一般的较低级别视觉特征的空间排列。卷积神经网络的某些层可以相应地识别和/或定位脸部的视觉特征(例如，鼻子、眼睛、嘴唇)。因此，卷积神经网络可以识别并定位输入图像中的面部。尽管针对卷积神经网络描述了前述的例子，但是其它神经网络技术能够基于检测低级别视觉特征、高级别视觉特征和视觉特征的空间排列，来检测和/或定位人脸和其它显著的特征。

面部识别机126可以采用现有技术和/或未来的ML和/或AI技术的任何适当的组合。可以在面部识别机126的实现中并入的技术的非限制性示例包括支持向量机、多层神经网络、卷积神经网络、递归神经网络、关联存储、无监督的空间和/或聚类方法和/或图形模型。

在一些例子中，面部识别机126可以使用一个或多个可区分的功能来实现，并且至少部分地通过一组可训练的参数来确定。因此，可以通过任何适当的训练过程来调整可训练参数，以便持续改善面部识别机126的功能。

用于面部识别机126的训练过程的非限制性示例包括监督训练、零击、少击、无监督学习方法、强化学习和/或生成对抗性神经网络训练方法。在一些例子中，可以针对测量多个部件的集体功能的性能的目标函数，来同时训练面部识别机126的多个组件，以便改善这种集体功能。在一些例子中，可以独立于其它组件来训练面部识别机126的一个或多个组件。

在一些例子中，面部识别机126可以采用被配置为检测和/或定位输入图像的显著特征的卷积神经网络。在一些例子中，可以通过对标注的训练数据进行有监督训练，并且关于目标函数，来训练面部识别机126，其中标注的训练数据包括具有指示在这些图像中存在的任何面部的特定身份，并且与标注的训练数据中指示的面部的实际身份相比，目标函数指示面部识别机126对面部进行识别的准确性、精确度和/或召回度。在一些例子中，可以通过对包括成对面部图像的标注的训练数据进行有监督训练，并且关于目标函数，来训练面部识别机126，其中这些成对的面部图像具有指示一对图像中的两个面部图像是同一个个人的图像还是两个不同个人的图像，而目标函数指示从两个不同的个人对中区分出单个个人对的准确性、精确度和/或召回度。

在一些例子中，面部识别机126可以被配置为通过从预定义的身份选择中选择和/或输出用于身份的置信度值来对面部进行分类，例如，在用于训练面部识别机126的训练数据中可获得其面部图像的身份的预定义选择。在一些例子中，面部识别机126可以被配置为例如基于面部识别机126中采用的神经网络的隐藏层的输出，来评估代表面部的特征向量。由面部识别机126针对面部图像评估的特征向量，可以表示该面部图像在面部识别机126学习的表示空间中的嵌入。相应地，特征向量可以基于这种在表示空间中的嵌入，来表示面部的显著特征。

在一些例子中，面部识别机126可以被配置为注册一个或多个个体以便以后识别。面部识别机126的注册可以包括：例如基于一个或多个图像来和/或个人面部视频，来评估代表个人面部的特征向量。在一些例子中，基于测试图像的个人的识别，可以是基于面部识别机126针对该测试图像评估的测试特征向量与为了后续识别而注册该个人进行的先前评估的特征向量的比较。可以以诸如以下之类的任何适当的方式，将测试特征向量与来自注册的特征向量进行比较：使用相似度的度量(例如，余弦或内积相似度)，和/或通过无监督的空间和/或聚类方法(例如，近似k最近邻方法)。将测试特征向量与来自注册的特征向量进行比较可以适合于评估两个向量表示的个体的身份，例如，基于比较这两个向量代表的面部的显著特征。

如图1B中所示，计算机化会议助理106包括语音识别机128。语音识别机128与面部识别机126类似，这是因为它也是试图识别个人。但是，与对视频图像进行训练并在视频图像上操作的面部识别机126不同，对音频信号(例如，波束成形信号150和/或信号112)进行训练并在音频信号上操作语音识别机。语音识别机128可以使用上面所描述的ML和AI技术。语音识别机输出语音ID 170，其可选地具有相应的置信度(例如，Bob(77％))。

图6示意性地示出了用于计算机化会议助理106的上述组件的示例性分割(diarization)框架600。虽然下面参照计算机化会议助理106描述了分割框架600，但是可以使用不同的硬件、固件和/或软件组件(例如，不同的麦克风和/或摄像头放置和/或配置)来实现该分割框架。此外，可以在被设计为将语音发音与正确的讲话者进行关联的不同传感器融合(fusion)框架中，使用SSL机120、波束成形机122、面部定位机124和/或面部识别机128。

在所示的实施方式中，麦克风108将信号112提供给SSL机120和波束成形机122，SLL机将起源140输出到分割机132。在一些实施方式中，起源140可以可选地输出到波束成形机122。摄像机110向面部定位机124和面部识别机126提供360°数字视频114。面部定位机将候选面部166的位置(例如，23°)传递到波束成形机122，波束成形机可以利用该位置来选择已识别讲话人的期望区域。波束成形机122将波束成形的信号150传递给分割机132和语音识别机128，后者将语音ID 170传递给分割机132。面部识别机128向分割机输出具有候选面部的相应位置的身份168(例如，“Bob”)。虽然没有显示，但分割机可以接收其它信息，并使用这些信息将语音发声归属于正确的讲话者。

分割机132是一种传感器融合，其被配置为使用各种接收到的信号将录制的语音与适当的讲话者相关联。分割机被配置为将波束成形信号或另一音频信号中编码的信息归属于负责生成相应声音/语音的人员。在一些实施方式(例如，图11)中，分割机被配置为将实际音频信号归属于相应的讲话者(例如，用讲话者身份标记音频信号)。在一些实施方式(例如，图12)中，分割机被配置为将语音识别的文本归属于相应的讲话者(例如，用讲话者身份标记文本)。

在一个非限制性示例中，可以采用以下算法：

从开始到时间t的视频输入(例如，360°数字视频114)表示为V_1:t

来自N个麦克风的音频输入(例如，信号112)表示为

分割机132通过使下式最大化，来解决谁在何地和何时讲话：

其中，通过

来计算

其中，

为语音ID 170，其接收N个通道输入，并根据候选面部166的角度来选择一个波束成形的信号150；

是起源140，它接受N个通道输入，并预测哪个角度最有可能发出声音；

P(who，angle|V_1：t)是标识168，它以视频114作为输入，并预测每个面部在每个角度出现的概率。

以上框架可以适于使用任何合适的处理策略，这些处理策略包括但不限于以上讨论的ML/AI技术。使用上述框架，在找到的角度出现一个面部的概率通常是同质的，例如，Bob的面部在23°处的概率为99％，而在其它角度下他的脸的概率几乎为0％。

图7是分割机132的示例性输出的视觉表示。在图6中，垂直轴用于表示谁(例如，Bob)正在讲话；水平轴表示讲话者正在讲话的时间(例如，30.01s-34.87s)；而深度轴表示讲话者正在讲话的位置(例如，23°)。分割机132可以使用该谁/何时/何地信息，在标记608的分析下来标注音频信号606的相应片段604。可以以任何合适的格式，从分割机132输出片段604和/或相应标记。该输出在N个讲话者之间的对话过程中，有效地将语音与特定的讲话者相关联，并允许将与每种语音发音相对应的音频信号(带有谁/何时/何地标记/元数据)用于大量的下游操作。一个非限制性的下游操作是会话转录，如将在下面更详细讨论的。再举一个例子，AI助理可以使用将语音准确地归属于正确的讲话者，来识别谁在讲话，从而减少了讲话者使用关键词(例如，“Cortana”)与AI助手联系的必要性。

简要返回到图1B，计算机化会议助理106可以包括语音识别机130。如图8中所示，语音识别机130可以被配置为将录制的语音的音频信号(例如，信号112、波束成形的信号150、信号606和/或片段604)转换为文本800。在图8所示的场景中，语音识别机130将信号802转换为文本：“我们玩游戏吗？”

语音识别机130可以采用最新技术和/或未来自然语言处理(NLP)、AI和/或ML技术的任何适当组合。可以并入语音识别机130的实现中的技术的非限制性示例包括支持向量机、多层神经网络、卷积神经网络(例如，其包括用于处理自然语言句子的时间卷积神经网络)、词嵌入模型(例如，GloVe或Word2Vec)、循环神经网络、关联存储、无监督的空间和/或聚类方法、图形模型和/或自然语言处理技术(例如，标记、词干、构成和/或依赖解析和/或意图识别)。

在一些例子中，语音识别机130可以使用一个或多个可区分的功能来实现，并且至少部分地由一组可训练的参数来确定。因此，可以通过任何适当的训练过程来调整可训练参数，以便持续改善语音识别机130的功能。

用于语音识别机130的训练过程的非限制性示例包括监督训练、零击、少击、无监督学习方法、强化学习和/或生成对抗性神经网络训练方法。在一些例子中，可以针对测量多个组件的集体功能的性能的目标函数，同时训练语音识别机130的所述多个组件，以便改善这种集体功能。在一些例子中，语音识别机130的一个或多个组件可以与其它组件无关地进行训练。在一个例子中，可以针对用于测量正确地识别与语音音频对应的词法数据的准确性、精确度和/或召回度的目标函数，通过对标注的训练数据进行监督训练来训练语音识别机130，该标注的训练数据包括被注释以指示实际词法数据(例如，单词、短语和/或文本形式的任何其它语言数据)的语音音频。

在一些例子中，语音识别机130可以使用AI和/或ML模型(例如，LSTM和/或时间卷积神经网络)来表示计算机可读格式的语音音频。在一些例子中，语音识别机130可以将语音音频输入表示为由语音音频模型和单词嵌入模型(例如，GloVe矢量的潜在表示空间和/或Word2Vec矢量的潜在表示空间)共享的学习表示空间中的单词嵌入矢量。因此，通过在学习的表示空间中表示语音音频输入和单词，语音识别机130可以将表示语音音频的矢量与表示单词的矢量进行比较，以针对语音音频输入来评估最接近的单词嵌入矢量(例如，基于余弦相似度和/或近似k最近邻方法或任何其它适当的比较方法)。

在一些例子中，语音识别机130可以被配置为将语音音频分段成一些词(例如，使用经训练以识别词边界的LSTM，和/或基于相邻词之间的沉默或幅度差异来分离词语)。在一些例子中，语音识别机130可以对单个词进行分类，以评估每个单个词的词法数据(例如，字符序列、单词序列，n-gram)。在一些例子中，语音识别机130可以采用依赖性和/或构成解析来导出用于词汇数据的解析树。在一些例子中，语音识别机130可以操作AI和/或ML模型(例如，LSTM)，将语音音频和/或表示学习的表示空间中的语音音频的矢量转换成词汇数据，其中对序列中的词进行转换是基于当前时间的语音音频，并且进一步基于AI和/或ML模型的内部状态，其中该内部状态表示该序列中先前时间的先前词。以这种方式将词语从语音音频转换为词汇数据，可以捕获可能有助于语音识别的词语之间的关系(例如，基于先前词语的上下文来识别可能含糊的词，和/或基于先前词语的上下文来识别发音错误的词语)。因此，即使当语音可能包括歧义性、错误发音等等时，语音识别机130也能够可靠地识别语音。

可以针对个人、多个个人和/或人群来训练语音识别机130。针对个人人群训练语音识别机130可以使语音识别机130考虑在该人群中可能会更频繁出现的独特语音特征(例如，在人群的成员之间变化的不同的语言、口音、词汇和/或任何其它区别性特征)，可靠地识别该人群的成员的语音。关于个人和/或关于多个个人来训练语音识别机130，可以进一步调整语音的识别，以考虑到该个人和/或多个个人的语音特征的进一步差异。在一些例子中，可以针对不同的人群来训练不同的语音识别机(例如，语音识别机(A)和语音识别(B))，从而使每个不同的语音识别机在考虑不同人群之间可能有所不同的语音特征的情况下，稳健地识别不同人群的成员的语音。

标注的和/或部分标注的音频片段不仅可以用于确定多个N讲话者中的哪一个对应于该话音，而且还可以将该话音转换为用于下游操作(例如，转录)的纹理表示。图9示出了计算机化会议助理106使用麦克风108和摄像机110来确定特定的声音流是来自Bob的语音，其中Bob坐在桌子104周围23°，并说：“我们玩游戏吗？”Charlie和Alice的身份和位置也得到了解决，因此可以对来自这些讲话者的言语进行类似地归属并转换成文本。

图10显示了示例性会议转录本181，其包括按时间顺序排列的归属给正确的讲话者的文本。转录可选地可以包括其它信息，例如每个语音发声的时间和/或每个语音发声的讲话者的位置。在使用不同语言的讲话者参加一个会议的场景中，可以将文本转换成不同的语言。例如，即使讲话者中的一个或多个以不同的语言讲话，也可以向转录本的每个阅读者呈现转录本的该阅读者的首选语言的所有文本的版本。可以实时地更新根据本公开内容生成的转录本，这样就可以将新文本添加到转录本中，其具有相应地归属于每个新的发音的适当讲话者属性。

图11示出了非限制性框架1100，其中语音识别机130a-n位于分割机132的下游。可以针对特定的单个讲话者(例如，Bob)或讲话者种类(例如，中文讲话者或者具有中文口音的英语讲话者)，可选地调整每个语音识别机130。在一些实施例中，用户简档可以指定适合于该特定用户的语音识别机(或者其参数)，并且当(例如，通过面部识别)识别用户时，可以使用该语音识别机(或参数)。通过这种方式，可以为特定的讲话者，选择经过特定语法和/或声学模型调整的语音识别机。此外，因为可以在独立于所有其他讲话者语音的情况下，对来自每个不同讲话者的语音进行处理，所有讲话者的语法和/或声学模型都可以实时地并行动态更新。在图11所示的实施例中，每个语音识别机可以接收用于相应讲话者的片段604和标记608，并且每个语音识别机可以被配置为输出带有标记608的文本800以用于下游操作(例如，转录)。

图12示出了语音识别机130a-n位于分割机132的上游的非限制性框架1200。在这种框架中，分割机132可以最初在片段604之外或代替片段604，来向文本800施加标记608。此外，当解析哪个讲话者对应于每个话音时，分割机可以考虑文本800的自然语言属性作为附加输入信号。

图13示出了示例性会议环境100，其中，计算机化智能助理1300协调由多个本地和远程参与者举行的会议。虽然以下示例描绘了包括四个本地参与者(Anna、Beatrice、Carol和Dan)和一个远程参与者(Roger)的会议，本公开内容的系统和方法可以用于促进包括至少一个本地参与者和任何适当数量的远程参与者的任何会议。计算机化智能助理1300可以包含被配置为在会议期间识别讲话者和转录事件的分割机和/或分割框架(例如，分割框架600、分割框架1100、分割框架1200和/或分割机132)。在一些实施例中，计算机化智能助理1300可以采取计算机化会议助理106的形式。

本文使用“会议环境”来指代相对靠近计算机化智能助理1300的任何区域，其中计算机化智能助理1300能够收集至少一些视听和/或其它相关数据，以便观察会议环境(例如，会议室、办公室或任何其它适合举行会议的位置)中的会议参与者。

本文使用“会议参与者”来指代计算机化智能助理1300的任何用户和/或与计算机化智能助理1300通信耦合的其它计算机设备(当该用户以任何身份参加会议时)。例如，除了亲自参加会议的本地用户和远程参加会议的远程用户之外，本文使用“会议参与者”来指代参加会议计划和/或会议的日程安排的组织者(即使此类会议组织者未亲自或远程地参加该会议)。类似地，本文使用“会议参与者”来指代会议的预期参与者(例如，被邀请参加会议的用户)，即使此类预期参与者实际上并未参加会议。类似地，本文使用“会议参与者”来指代在会议期间提到的个人(例如，与另一个会议参与者来自同一组织的个人)，即使这些个人没有直接参加该会议。

计算机化智能助理1300包括麦克风、摄像机和扬声器。图22的计算系统1300提供了用于实现计算机化智能助理1300的示例平台。计算机化智能助理1300被配置为捕获出现在会议环境100和/或其附近任何地方的视听信息。例如，可以通过使用鱼眼镜头摄像机、深度摄像机、麦克风阵列(例如，一个或多个麦克风)或任何其它适当的传感器设备，将计算机化智能助理1300配置为在空间上定位此类捕获的视听信息。当计算机化智能助理1300包括一个或多个麦克风(例如，在麦克风阵列内)时，麦克风可以包括方向敏感、位置敏感和/或方向或位置不敏感的麦克风。计算机化智能助理1300可以被配置为例如通过识别与会议参与者相关联的面部外观和/或语音音频，基于此类捕获的视听信息来识别会议参与者的身份。

返回到图13，计算机化智能助理1300经由网络1310通信地耦合到后端服务器1320。例如，后端服务器1320可以是通常被配置为有助于安排会议、会议参与者使用的伴随设备之间的通信、和/或任何其它适当的任务，以便与计算机化智能助理1300合作来促进会议。网络1310可以是任何适当的计算机网络(例如，互联网)。可以直接在计算机化智能助理1300上实现本文所描述的任何方法或过程(例如，通过计算机化智能助理1300的逻辑和/或存储设备)。替代地或另外地，这样的方法和过程可以至少部分地由后端服务器1320执行。后端服务器1320可以包括任何适当的计算设备(例如，单个外壳中的服务器设备、或者计算设备的集群)。本文可以使用“计算机化智能助理”来指代单个设备(例如，所示的计算机化智能助理1300在会议环境100中的桌子上)，或者指代实现本文所描述的方法和过程的设备集合，例如与后端服务器1320结合的计算机化智能助理1300。

远程和/或本地参与者的用户设备(例如，远程和/或本地用户设备)以及与会议环境相关联的其它计算设备(例如，会议环境中的显示监视器)可以在本文中更一般地称作为伴随设备。虽然下面的描述包括在远程用户设备172处显示的内容(例如，通知、转录本和分析结果)的例子，但是可以在任何伴随设备上显示这些显示的内容。伴随设备可以包括任何适当的设备(例如，移动电话、个人计算机、平板设备等等)。在一些例子中，伴随设备可以通信地耦合到计算机化智能助理1300。在一些例子中，通信耦合可以是经由网络1310。在一些例子中，可以通过后端服务器1320来调节伴随设备和智能助理120之间的通信(例如，远程用户设备172可以通信地耦合到后端服务器1320，转而可以促进远程用户设备172和计算机化智能助理1300之间的双向信息流)。替代地或另外地，伴随设备可以直接经由有线和/或无线连接(例如，经由

)，通信地耦合到计算机化智能助理1300。

协调包括本地和/或远程用户的会议可能需要在会议开始之前和整个会议期间，由计算机识别和跟踪关于会议的各种数据，以便分析此类数据并将此类分析的结果(具有通知消息、转录本、反馈等等的形式)提供给会议参与者。图14示出了可以由计算机化智能助理1300执行以促进会议的方法200。

在201处，方法200包括：准备会议(例如，在会议的开始时间之前)。因此，在会议之前，计算机化智能助理1300可以接收与会议有关的信息(例如，位置、日程和预期出席者)。在202处，准备会议包括：确定会议时间和地点。确定会议时间和位置可以是基于从后端服务器1320或从任何其它计算设备接收的日程安排信息(例如，从会议参与者的伴随设备接收的，或者基于与计算机化智能助理1300或与另一个不同的计算机化智能助理的先前对话，其中这种对话包括第一会议参与者要求计算机化智能助理1300安排会议)。会议参与者可以以任何合适的方式预先确定这种日程安排信息，例如，通过向日历程序添加条目，或者通过电子邮件、聊天或任何其它适当的通知消息系统向其他会议参与者发送邀请。在一些例子中，可以针对一个或多个周期性会议(例如，每周会议、每两周一次的会议或根据任何其它合适的日程表的周期性会议)，预先确定会议日程和位置。在一些例子中，可以在会议即将开始之前不久，以基本上即席的方式确定会议日程和位置，例如，通过发送立即召开会议的邀请、或者由第一会议参与者要求计算机化智能助理1300呼叫一个或多个其他会议参与者以立即加入会议环境100中的第一会议参与者。在一些例子中，计算机化智能助理1300可以包括：被配置为确定会议的时间和位置的调度机。

在一些例子中，会议的位置可以是基于对物理位置的描述(例如，建筑物中的房间、全球定位系统(GPS)坐标和/或街道地址)。在一些例子中，可以由会议参与者与为会议预定的时间表相关联地预定会议的位置。替代地或另外地，可以基于计算机化智能助理1300和/或会议参与者的伴随设备中的一个或多个的传感器数据来推断物理位置。在一些例子中，可以基于计算机化智能助理1300和/或会议参与者的伴随设备的位置，来推断会议的位置(例如，基于将建筑物中的预定义的房间地图与具有网络1310的计算机化智能助理1300的配置进行相关，例如与有线和/或无线相关联的互联网协议(IP)或媒体访问控制(MAC)地址将计算机化的智能助理1300耦合到网络1310)。

在203处，方法200包括：确定期望的会议参与者的参与者身份。例如，可以基于会议时间表来做出这种确定(例如，当确定会议时间表是基于发送给会议参与者的邀请时，这样的邀请指示预期的(例如，受邀的)会议参与者)。在一些例子中，预期的参与者可以包括组织的所有成员和/或组织的一个子集(例如，部门或团队)。在一些例子中，可以基于过去的参与(例如，基于参加定期安排的会议的频率)来推断预期的参加者。

在204处，确定参与者身份包括：确定每个参与者的预注册签名，其中这种预注册签名可用于计算机识别参与者的身份(例如，基于由计算机化智能助理1300捕获的视听数据)。例如，会议参与者的这种签名可以包括一个或多个示例性视听数据(例如，面部照片、语音音频样本和/或生物特征数据(例如，指纹数据))的计算机可读表示。在一些例子中，该计算机可读表示可以直接包括一个或多个示例性视听数据(例如，面部照片)。在一些例子中，计算机可读表示可以包括与示例性视听数据相关联的一个或多个识别特征(例如，指示面部特征的形状和/或位置的视觉标记)。在一些例子中，会议参与者的预注册签名可以包括关联的伴随设备(例如，移动电话的MAC地址)。在一些例子中，会议参与者的签名可以包括相关联的用户帐户(例如，在通信地耦合到后端服务器1320和/或计算机化智能助理1300的移动电话上运行的会议程序中的帐户)。在一些例子中，预注册签名可能仅对会议参与者的一个子集可用，或者预注册签名可能对任何会议参与者均不可用。在一些例子中，计算机化智能助理1300可以包括身份机，其被配置为确定包括一组远程参与者和一组本地参与者的多个会议参与者的参与者身份。确定所述多个会议参与者中的参与者的参与者身份可以包括：识别该参与者的预注册签名，其中该预注册签名可用于计算机识别该参与者的身份。在一些例子中，例如，通过操作面部识别机来识别一个或多个远程会议参与者的一个或多个面部(其具有远程会议参与者的远程伴随设备捕获的数字视频中的特征)，面部识别机可以基于从本地和/或远程计算设备(例如，会议参与者的伴随设备)接收到的数字视频，来识别一个或多个本地和/或远程会议参与者。

在一些例子中，可以从安全的个人数据存储系统(例如，在后端服务器1320上运行)中检索会议参与者的预先注册的签名，其中基于用户证书和企业证书来限制对会议参与者的签名数据的访问(例如，禁止会议参与者以外的用户访问该会议参与者的签名数据，和/或阻止会议参与者所属组织之外的用户访问签名数据)。在一些例子中，签名数据仅由安全的个人数据存储系统和/或后端服务器1320访问，以与计算机化智能助理1300协作来识别用户，并且签名数据不可观察或者不能由会议参与者访问。在一些例子中，除了存储在安全的个人数据存储系统和/或后端服务器1320中，签名数据存储在一个或多个其它位置(例如，以用户伴随设备上的私有签名数据的形式、企业服务器上的企业签名数据的形式、或者任何其它适当的位置的形式)。上面所描述的处理(例如，存储、保护和/或访问)签名数据的方法是用于处理敏感数据(例如，私有、机密和/或个人数据)的非限制性示例性方法。根据本公开内容的计算机化智能助理可以利用这些示例性方法和/或最新技术和/或未来方法的任何其它适当组合来处理敏感数据。

可以并且应当在尊重个人隐私的情况下，制定本文所涉及人的观察的方法。因此，本文所提出的方法与被观察者的选择参与完全兼容。在本地系统上收集个人数据(例如，签名数据、以人为特征的原始视听数据，例如由计算机化智能助理1320的相机捕获的视频数据、和/或经处理的视听数据)并将其传输到远程系统以进行处理的实施例中，可以以安全的方式(例如，使用适当的数据加密技术)来传输个人数据。可选地，可以对个人数据进行匿名化。在其它实施例中，可以将个人数据限制在本地系统中，而仅将非个人的摘要数据传输到远程系统。在其它实施例中，可以实施多层隐私策略，其中不同类型的数据具有不同的访问级别和/或混淆/匿名化级别(例如，所有企业安全系统都可以使用企业生物特征签名来验证身份，但是个人简档数据只能由授权用户进行访问)。

在205处，确定参与者身份还包括：识别参与者感兴趣的预先注册的内容。在本文中可以使用“感兴趣的内容”来指代会议参与者可能感兴趣的任何题目或主题。感兴趣的内容的非限制性示例包括以下中的任何一项：1)单词和/或短语；2)任务(例如，预期任务或者一个或多个会议参与者做出的承诺)；3)另一个会议参与者的身份(例如，名称或电子邮件地址)；4)数字文件(例如，特定文档)；5)模拟多媒体和/或视听内容(例如，特定的照片或图表，比如在白板上共享的图表)；和/或6)日期、时间和/或位置。在一些例子中，会议参与者感兴趣的内容可以由会议参与者、任何其他会议参与者、或者与会议参与者相关联的组织中的另一个用户(例如，会议参与者的主管)进行预先定义。在一些例子中，可以基于会议参与者与计算机化智能助理1300和/或通信耦合到计算机化智能助理1300的计算机服务(例如，另一个不同的计算机化智能助理、电子邮件程序和/或笔记记录程序)的先前交互，来推断会议参与者感兴趣的内容。在一些例子中，可以基于会议参与者的个人偏好来推断会议参与者感兴趣的内容(例如，其中该个人偏好是通过与通信地耦合到计算机化智能助理1300的一个或多个计算机服务的先前交互来建立的)。在一些例子中，可以基于会议参与者的当前上下文来推断会议参与者感兴趣的内容，其中可以基于与通信地耦合到计算机化智能助理1300的一个或多个计算机服务的先前交互来识别这种当前上下文。在一些例子中，可以基于会议参与者的职位和/或角色，来推断会议参与者感兴趣的内容。在一些例子中，会议参与者感兴趣的内容可以是基于包括会议参与者的先前会议，例如，基于在这样的先前会议中出现的主题，其中，会议参与者通过参加提及这些主题的会议，和/或通过参加提及这些主题的对话，来表明对该主题潜在的兴趣。

在211处，方法200还包括：自动地创建会议的转录本。该转录本可以记录和/或以其它方式跟踪会议的任何适当的细节。要包括在转录本中的细节的非限制性示例包括：l)参与者的到达和离开、2)会议音频/视频、3)转录的本地和/或远程参与者的对话、4)会议参与者共享的视觉信息(例如，图表、图纸、照片)、5)会议参与者共享的数字信息(例如，文档文件、多媒体文件、网址、电子邮件地址或者任何其它数字内容)以及会议参与者与共享数字信息的交互(例如，单击演示文稿中的下一张幻灯片)、6)参与者执行的手势和/或非语言暗示(例如，手势、笑声和/或拍手)、和/或7)通过会议参与者的伴随设备提交的标记信息(例如，指示会议中的书签或感兴趣点，或更一般而言，在特定情况下发生的任何事件)。转录本中包含的任何详细信息都可以与时间戳相关联。因此，转录本可以按照会议中发生的细节的时间顺序，来交织会议的细节。每当记录细节时，计算机化智能助理1300就可以实时地向一个或多个会议参与者提供通知(例如，发送到伴随设备的描述所记录的细节的通知消息)。

在一些例子中，计算机化智能助理1300可以包括转录机，该转录机被配置为基于视听数据来自动地创建会议的转录本，所述视听数据包括由摄像机捕获的视频数据和由麦克风捕获的音频数据。因此，转录机可以基于先前针对会议参与者确定的参与者身份，并且基于基于先前确定的身份识别参与者，来创建包括在视听数据中识别的会议参与者的到达和离开的转录本。在一些例子中，可以由面部识别机基于先前确定的身份来识别参与者(例如，通过基于与先前针对会议参与者所确定的身份中包括的会议参与者面部的照片的相似度，来识别会议参与者面部)。例如，转录本可以包括指示会议参与者的抵达时间的到达时间，和/或指示会议参与者的离去时间的离开时间。在一些例子中，可以基于面部识别机对会议参与者的识别时间，来确定到达时间。

由转录机创建的转录本还可以包括转录的本地和远程参与者的参与者对话，其包括由麦克风捕获的本地参与者的转录语音音频、以及在会议上共享的多媒体信息，其中在会议上共享的多媒体信息包括在数据板上共享的模拟视觉内容，其中转录本包括指示将新视觉内容添加到该板上的时间的时间戳以及新视觉内容的图形描述。在一个限制性示例中，转录机可以并入被配置用于转录的分割机和/或分割框架(例如，分割框架600、分割框架1100、分割框架1300和/或分割机132)。

在一些例子中，可以基于操作语音识别机以将以会议参与者的语音音频为特征的计算机可读音频信号转换为表示语音音频中包含的话语的文本，来创建转录本。在一些例子中，创建转录本可以包括：操作归属机以将语音音频和/或文本归属于某个会议参与者。例如，归属机可以被配置为识别语音音频中的讲话者，并将该语音音频归属于该会议参与者，以便在语音识别机将语音音频转换成文本之后，可以将该文本归属于此讲话者。替代地或另外地，归属机可以被配置为基于语音识别机转换后的文本(例如，基于单词选择、说话风格和/或文本的任何其它适当的自然语言特征)来识别讲话者。在一个非限制性示例中，归属机可以被配置为将转录本文本的一部分归属于多个会议参与者中的每个会议参与者。在一些例子中，归属机可以并入被配置用于转录的分割机和/或分割框架(例如，分割框架600、分割框架1100、分割框架1300和/或分割机132)。替代地或另外地，可以使用用于将语音音频和/或文本归属于一个或多个讲话者的任何适当的技术来实现归属机。

此外，会议参与者能够在会议期间实时地访问到目前为止记录的完整转录本，例如，以查看先前记录的细节。在一些例子中，计算机化智能助理1300可以提供指示是否是当前正在记录转录本的通知(例如，发送到伴随设备的通知消息、和/或在记录过程中闪烁的绿灯)。在一些例子中，可以为最终转录本，保留会议音频和/或视频。在其它例子中，可以对会议音频和/或视频进行分析，以便识别会议的其它细节，并随后进行丢弃。在一些例子中，可能仅对会议音频和/或视频进行临时保留(例如，以便于查看转录本中收集的其它细节)，然后进行丢弃(例如，在预定义的未来日期、或者按照会议参与者的指示)。在一些例子中，后端服务器1320可以被配置为维护会议的运行转录本，其包括归属于每个会议参与者的文本和/或会议期间其它感兴趣的事件。因此，后端服务器1320可以进一步被配置为：例如通过发送整个转录本或者通过发送一个或多个“增量”数据来向会议参与者的伴随设备提供会议的运行转录本，其中每个增量数据指示最近的添加和/或对转录本的更改。

在211处创建会议的转录本可以包括：在212处跟踪参与者的到达。计算机化智能助理1300可以跟踪本地参与者的到达和远程参与者的到达。关于远程参与者，本文可以使用“到达”来指代远程参与者可用来参加会议的时间(例如，当远程参与者通过电话、音频会议、视频会议或其它方式远程加入会议时)。

计算机化智能助理1300可以被配置为通过识别本地参与者的身份，来跟踪本地参与者的到达。例如，图13示出了计算机化智能助理1300将会议参与者161识别为“Anna”。计算机化智能助理1300可以基于计算机化智能助理1300和/或外围设备/协作设备的摄像机和/或麦克风捕获的视听数据，在本地参与者进入会议环境100时识别本地参与者。当本地参与者的预注册签名可用时，计算机化智能助理1300可以基于这样的预注册签名来识别本地参与者。

在一些例子中，计算机化智能助理1300可以基于对预期参与者的先前确定的参与者身份，将对到达的本地参与者的识别限制为仅识别预期到达的本地参与者。替代地或另外地，计算机化智能助理1300可以将对到达的本地参与者的识别限制为仅识别可能进入会议环境100的任何适当的潜在会议参与者和/或个人的集合。例如，这样的潜在会议参与者和/或个人可以包括与会议相关联的组织内的其他个人、和/或在容纳会议环境100的建筑物中办公的其他个人。在一些例子中，计算机化智能助理1300可以识别一组或多组不同的个人以进行识别，例如，1)受邀会议参与者、2)来自同一组织的有可能参加会议的受邀会议参与者的同事、和/或3)容纳会议环境100的建筑物中办公的其他个人。在一些例子中，计算机化智能助理1300可以被配置为：使用不同的个人集合中的一个或多个进行优先级划分，以尝试识别，例如，计算机化智能助理1300可以被配置为首先尝试将个人识别为受邀会议参与者之一，然后尝试将其识别为来自同一组织的同事(只有在受邀请的会议参与者中未识别该个人的情况下)。当一个个体处于优先集合中时，对一组个体的尝试识别进行优先级划分可以提高识别该个体的速度和/或计算效率。

在一些例子中，由于用于识别本地参与者的数据不足，可能无法立即识别本地参与者(例如，如果遮挡了本地参与者的脸部，则基于包括面部视觉外观的预注册签名来识别本地参与者可能是不可行的；类似地，如果关闭了本地参与者的伴随设备，则与该伴随设备相关联的信息可能无法用于识别)。在一些例子中，会议参与者的预注册参与者身份数据可能是不可用的，或者可能是不正确的，或者不足以识别会议参与者。因此，计算机化智能助理1300可以向本地参与者分配访客身份，以便推迟对本地参与者的识别，直到有更多可用的数据为止。在一个例子中，没有能够基于面部外观立即识别第一本地参与者(例如，因为没有预先注册的面部外观数据可用于该参与者)，但是在进入会议环境100时，第二本地参与者可能通过姓名向第一本地参与者打招呼。因此，计算机化智能助理1300可以基于在计算机化智能助理1300的麦克风处收集的音频数据来识别第一本地参与者的名字，并基于该名字来识别第一本地参与者(例如，通过将该名字与受邀请的会议参与者的名字进行关联)。

在一个例子中，在进入会议环境100时，可能最初不会识别出会议参与者，并且计算机化智能助理1300可以提示本地参与者明确地提供进一步的识别信息(例如，通过要求本地参与者提供姓名)。在一些例子中，当识别出本地参与者时，计算机化智能助理1300可以进一步提示本地参与者注册身份以促进将来的识别。这种提示可以包括任何适当的通知，例如，伴随设备上的提示、和/或由计算机化智能助理1300通过语音音频提出的问题。会议参与者的识别信息可以包括个人和/或敏感数据(例如，照片、语音音频样本等等)。相应地，提示本地参加者可以包括：明确地向本地参与者通知特别是要存储哪些身份信息以备将来使用，和/或特别地说明如何使用这种识别信息。在一些例子中，由计算机化智能助理捕获的访客用户的图像或音频片段可以与“访客”身份相关联，并且与其他会议参与者共享，其他会议参与者可能基于图像或音频片段来积极地识别出该访客。在有足够的信息可用来识别本地参与者之后，与该本地参与者相关联的任何访客身份都可以用已识别的身份来替换和/或更新。

在一个例子中，计算机化智能助理1300可以被配置为在以下情况下向会议负责人提供通知：已经检测到会议参与者并且正在跟踪该会议参与者，而该会议参与者尚未注册签名。提供给会议负责人的通知可以包括：已经由计算机化智能助理1300捕获的与会议参与者相关联的音频/视频数据的样本。因此，会议负责人可以通过指示会议参与者的身份(例如，通过选择与该会议参与者相关联的姓名、用户帐户、和/或电子邮件地址)来响应所提供的通知。响应于该选择，计算机化智能助理1300可以自动生成签名(例如，基于面部图像和/或语音音频)，并为该会议参与者注册签名。在一些例子中，计算机化智能助理1300被配置为：仅在首先向用户提议这样做并接收到来自用户的肯定许可之后才自动生成签名(例如，通过输出语音音频以请求指示自动生成签名的许可的自然语言响应)。替代地或另外地，计算机化智能助理1300可以将所指示的身份用于会议参与者的显示名称(例如，即使没有为该会议参与者生成签名)。计算机化智能助理1300可以另外使用会议参与者的任何可用图像来呈现讲话者图像(例如，在转录本中、以及与讲话者相关联的转录本中的事件相关联的讲话者姓名旁边)。例如，讲话者图像可以是基于计算机化智能助理1300的摄像机所捕获的图像和/或原始视频(例如，即使当计算机化智能助理1300无法基于此类图像识别会议参与者时)、基于另一个会议参与者提供的图像(例如，基于会议负责人提供的识别图像)、和/或基于会议参与者先前保存的图像(例如，个人资料图像)。

在一些例子中，计算机化智能助理1300可以被配置为连续或周期性地收集新的语音音频和面部图像，以提高一个或多个会议参与者的签名质量。例如，可以基于以下方式，针对会议参与者来收集新的语音音频和面部图像：根据预注册的签名来识别会议参与者，并记录与识别出的会议参与者相关联的语音音频和面部图像，以便将此类语音音频和面部图像合并到更新的签名中。在一些例子中，签名可以是基于足以可靠地识别会议参与者的语音音频，而这样的签名不足以基于面部图像来可靠地识别会议参与者。因此，当基于语音音频识别出会议参与者时，计算机化智能助理1300可以记录另外的面部图像，从而基于面部图像来自动地改善会议参与者的签名。类似地，在一些例子中，签名可以是基于面部图像足以可靠地识别会议参与者，而这种签名不足以基于语音音频来可靠地识别会议参与者；因此，当基于面部图像识别会议参与者时，计算机化智能助理1300可以录制其它语音音频，以便基于语音音频来自动地改善会议参与者的签名。通过这种方式，可以提高签名质量，并可以使签名保持最新(例如，关于会议参与者的面部外观和/或语音音频的潜在变化)，同时减少了会议参与者在注册签名的注册工作。

在一些例子中，例如，当计算机化智能助理1300自动为先前未被识别的会议参与者生成签名时，和/或当计算机化智能助理1300自动改善先前注册的会议参与者的签名时，计算机化智能助理1300可以被配置为请求来自该会议参与者的许可以保留并随后使用签名数据。在一些例子中，计算机化智能助理1300可以被配置为在会议期间和/或之后请求这样的许可。在一些例子中，计算机化智能助理1300可以被配置为：允许会议参与者撤消许可和/或要求会议参与者以任何适当的间隔(例如，根据时间表)提供更新的许可。因此，用于识别会议参与者的签名可以保持最新，同时还允许会议参与者对用于识别会议参与者的签名的存储和使用进行控制。

返回到图13，当第一会议参与者161(Anna)到达会议室时，会议尚未开始。因此，计算机化智能助理1300可以确定会议参与者161是Anna。虽然其他会议参与者被邀请参加会议并预计不久会到达，但其他会议参与者尚未到达。因此，计算机化智能助理可以将该情况通知本地参与者161(Anna)。

简要返回到图14，在231处，计算机化智能助理可以向会议参与者提供通知消息。使用以上示例，可以通过通信耦合到本地参与者161(Anna)的本地用户设备171(具有移动电话的形式)来提供这样的通知，以便在本地用户设备171上显示指示另外三个参与者(Beatrice、Carol和Dan)预计会到达但尚未到达的消息。通常而言，如本文所使用的“通知”指代任何适当的通知和/或确认信号。本文使用的“通知消息”是指任何适当的通知方式，例如，通过任何适当的协议(例如，短消息服务(SMS)、电子邮件或聊天协议)发送的电子消息、在伴随设备上输出的音频消息、在计算机化智能助理1300上输出的音频消息、或者不同的计算机化智能助理。

简要返回到图14，在241处，计算机化智能助理1300可以替代地或另外地提供确认信号。使用上面的例子，可以使用确认信号来向本地参与者161(Anna)通知其他会议参与者的状态，例如，通过输出语音音频来通知安娜其他三个参与者(Beatrice、Carol和Dan)预计到达但尚未到达，如图13的对话气泡所示。替代地或另外地，计算机化智能助理1300可以例如通过显示指示会议尚未开始的红灯，来提供任何其它适当的通知。更一般地，确认信号可以包括音频输出(例如，语音)或可见信号(例如，计算机化智能助理1300中包括的指示灯的颜色和/或闪烁模式、在计算机化智能助理1300中包括的显示器上输出的视觉内容、和/或在另一个设备(例如，本地用户设备171)的显示器上输出的视觉内容)的任何适当组合。

会议还包括一个或多个远程参与者，例如，远程参与者162(Roger)。远程参与者可以在任何远程位置，例如，在家中协作或在交通运输过程中协作。在一些例子中，远程参与者可能相对靠近会议环境100(例如，在容纳会议环境100的建筑物中的办公室中)，或者甚至是通过网络连接加入会议的本地参与者。相应地，计算机化智能助理1300可以通过网络1310通信耦合到远程参与者162的远程用户设备172(例如，Roger's平板电脑设备)。

计算机化智能助理1300可以被配置为：基于远程参与者登录到远程会议程序(例如，消息收发应用程序、语音和/或视频聊天应用程序或者任何其它适当的用于远程交互的接口)，来跟踪远程参与者的到达。替代地或另外地，计算机化智能助理1300可以被配置为：识别远程参与者的可用性状态(例如，基于远程会议程序中的状态)，并且如果在远程用户登录到远程会议程序之前指示远程用户是可用的，则假设存在远程用户。因此，计算机化智能助理1300可以向远程参与者提供通知消息，以邀请远程参与者例如在会议的先前定义的开始时间、当本地参与者要求这样做时、或者在任何其它适当的时间，登录到会议程序。更一般地，计算机化智能助理1300可以被配置为基于远程参与者的远程用户设备的状态/上下文(例如，电源状态或地理位置)来识别远程参与者的可用性和/或出席状况。在一些例子中，会议参与者可以授权远程用户设备基于一个或多个上下文信号来智能地评估远程用户的可用性(例如，Roger在打另一个电话或者与孩子交谈时不可用，但是在进行文字处理文档的工作时可用)。

在图13中示出了远程用户设备172的显示器的扩展视图180。如扩展视图180中所示，计算机化智能助理1300可以将关于会议的信息提供给远程用户设备172以进行显示。例如，扩展视图180还描绘了用于会议中的远程参与者的图形用户界面(GUI)。该GUI包括转录本条目181、以及转录本时间轴滚动条182和聊天条目框183。通过与网络1310和计算机化智能助理1300的通信耦合，远程用户设备172接收用于在转录本条目181中显示的事件。因此，转录本条目181显示的会议的基本细节，即指示被邀请参加会议的人员、已经参加的人员、以及接收到连接到会议的邀请、连接并检索转录本等等的过程的描述。具体而言，转录本条目181包含：用于指示该会议与“销售和计划会议”有关，并指示远程参与者162(Roger)将远程参加的标题。转录本条目181还包括预期的(本地和远程)会议参与者的指示(列出Anna、Beatrice、Carol、Dan和Roger)。转录本条目181还包括哪些本地参与者(即，本地参与者161(Anna))已经到达会议室的指示。因此，尽管Anna可能尚未宣布出席，但Roger知道她在场。

虽然到目前为止仅示出了少量的转录本条目181，但是滚动条182可以用于导航会议的时间线，以便在转录本中查看会议的过去和/或现在的细节。在本公开内容的其余部分中，将更新扩展视图180以示出少量的最近转录本条目181。在后续的附图中，将使用更新的最新条目来代替转录本条目181，就像滚动浏览转录本一样；因此，远程参与者162(Roger)可以使用滚动条182来导航到先前的条目(例如，在这些条目已被更新的条目替换之后，显示图15中所示的条目)。

在一些例子中，会议可以具有先前指定的出席者和/或组织者(在本文中称为会议负责人)。例如，“销售和计划会议”的会议负责人是Carol，他尚未出席。计算机化智能助理1300可以被配置为在有会议负责人出席时进行记录。因此，如扩展视图180中所示，远程参与者162(Roger)的显示设备可以接收并显示会议参与者正在等待Carol的指示，当Carol在场时，可以更新该指示。在一些例子中，计算机化智能助理1300可以被配置为鼓励等待开始会议，直到所有受邀会议参与者都在场为止、直到阈值比例(例如，50％)的受邀会议参与者在场为止、或者直到特定参与者(例如，会议负责人)在场为止。通常，计算机化智能助理1300可以向远程用户设备172提供任何适当的指示，以使远程用户162(Roger)获知会议出席和日程安排。

在211处创建会议的转录本还包括：在213处记录会议音频和/或视频。计算机化智能助理1300可以被配置为在任何适当的时间开始记录音频和/或视频。例如，计算机化智能助理1300可以连续地记录会议环境100。在另一个例子中，计算机化智能助理1300可以等待记录，直到满足某种标准(例如，在Carol到达之后)。

图15示出了在稍后的时间，在本地参与者163(Beatrice)已经到达之后以及在本地参与者164(Carol)正在到达时的会议环境100。本地参与者163(Beatrice)已经设置了另外的伴随设备(即，膝上型计算机形式的本地用户设备173)。

当本地参与者到达会议环境100时，计算机化智能助理1300可以被配置为基于存在多少本地参与者，来问候本地参与者中的一个或多个。例如，计算机化智能助理1300可以被配置为仅问候第一本地参与者，例如，以向其告知他们在正确的位置并且按计划。相应地，第一本地参与者可以与随后到达的本地参与者打招呼和/或交谈，从而避免计算机化智能助理1300提供这种问候和/或对话的效用。因此，在图15所示的会议环境100中，计算机化智能助理1300可以在本地参与者163(Beatrice)到达时未向其提供问候。在一些实施方式中，计算机化智能助理1300可以被配置为仅当已经在场的会议参与者没有对新来的会议参与者问候时才向新来的会议参与者打招呼。在一些例子中，计算机化智能助理1300可以被配置为向每个到达的本地参与者打招呼，直到满足特定的标准为止(例如，直到会议负责人到达或者直到存在一定数量的参与者为止)。

计算机化智能助理1300可以被配置为基于本地参与者的角色，为到达的本地参与者使用不同的问候。在一个例子中，计算机化智能助理1300可以被配置为通过询问是否开始会议，来问候会议负责人。在一个例子中，计算机化智能助理1300可以被配置为通过询问是否连接一个或多个远程参与者来问候会议负责人。例如，在图15中，计算机化智能助理1300询问本地参与者164(Carol)是否连接另外的远程参与者“Robert”(除了已经连接的本地参与者和远程参与者162(Roger)之外)。如图15中所示，计算机化智能助理1300被配置为将本地参与者164(Carol)的响应解释为会议应该开始的指示(同时正在连接另外的远程参与者Robert)，以代替明确询问是否开始会议。

替代地或另外地，计算机化智能助理1300可以被配置为通过询问是否向尚未出席的参与者发送通知，来问候会议负责人。例如，会议有四个本地受邀者，在本地参与者164(Carol)到达时只有三个在场；因此，由于本地参与者Dan尚不在场，所以计算机化智能助理1300除了询问是否连接Robert(如图15所示)之外，还可以询问Carol是否提醒Dan有关会议(图15中没有示出)。类似地，计算机化智能助理1300可以被配置为询问会议负责人是否等待一个或多个其他成员(例如，等待所有成员到达、或者等待其他会议负责人或指定的出席者到达)。

在一些例子中，在会议开始之后，可以将未被邀请参加会议或尚未参加会议的一个或多个本地和/或远程参与者添加到会议中。例如，会议参与者可以要求计算机化智能助理1300邀请其他远程参与者加入，例如，包括已经在对话中提到的同事或者在对话中提到的主题的专家。因此，计算机化智能助理1300可以向远程参与者发送通知(例如，以在远程参与者的伴随设备上显示)。该通知可以包括会议的详细信息(只要记录在转录本中即可)。例如，如果本地参与者164(Carol)要求计算机化智能助理1300邀请同事(其是在对话中提及的主题的专家)，则发送给该同事的通知可以包括正在进行的会议的位置以及指示Carol邀请该同事参加正在进行的会议、以及提到该同事的转录本中的一个或多个句子、短语和/或摘要、和/或来自提到该主题的转录本的一个或多个句子、短语和/或摘要。

在下面的描述和后续附图中(图16到图19)，不再示出后端服务器1320和网络1310，尽管计算机化智能助理1300仍通过后端服务器1320和网络1310来通信地耦合到伴随设备(例如，远程用户设备172)。类似地，在以下的描述和后续附图中(图16到图19)，不显示远程参与者162(Roger)和远程用户设备172；相反，后续附图聚焦于远程用户设备172的扩展显示180，以便通过扩展视图180中显示的GUI来显示远程参与者172与本地参与者之间的交互。

在图14的251处，方法200可以进一步包括：向会议参与者提供可回看转录本。可以将这样的可回看转录本提供给会议参与者的伴随设备以实时地显示(例如，如图13和图15到图19中的演变扩展视图180所示)。替代地或另外地，可以在会议结束之后，向会议参与者提供这种可回看转录本。这种可回看转录本可以包括与图13和图15到图19的扩展视图180中所描绘的内容基本相似的内容。如上所述，并且如将在下面进一步显示的，扩展视图180示出了会议中的各个不同时间的转录本。因此，可以利用滚动条182来滚动到不同的时间和/或识别的事件(例如，“E1”)，以便查看转录本中收集并记录的任何细节(例如，在执行方法200时收集的任何细节或者本文所描述的会议的任何其它细节)。除了使用滚动条182滚动到会议中的不同时间和/或事件之外，还可以通过任何适当的细节(例如，讲话者姓名、时间范围、转录对话中的词语、或者如本文所述的转录本中记录的任何其它细节)，对可回看转录本进行索引、搜索和/或过滤。在一些例子中，可回看转录本可以另外包括：在会议期间捕获的可观看的原始音频和/或视频。在一些例子中，可观看的音频和/或视频可以与会议事件相关联，例如，以允许基于转录本来导航音频和/或视频。在一些例子中，会议事件可能与可观看视频中的帧和/或短视频片段相关联，并且可以与会议事件一起在转录本中显示这些帧/片段(例如，允许这些帧/片段用于在转录本中进行导航)。转录本的这些片段和/或其它方面可以用于从记录中的期望位置，访问完整的音频和/或视频记录。在一些例子中，可回看转录本包括一个或多个差异图像，其显示会议期间共享的视觉信息的变化以及视觉信息发生变化的相应时间的指示。在一些例子中，可回看转录本被配置为允许基于共享视觉信息的图像(例如，差异图像)进行导航。例如，响应于对差异图像的选择，可回看转录本可以被配置为导航到与视觉信息发生改变的时间相对应的转录本的一部分，如在差异图片中所显示的。

通过过滤或重新格式化转录本中的事件/细节，可以使可回看转录本中显示的信息适合于特定的会议参与者。例如，虽然图15具有Anna、Beatrice和Carol正在出席的转录条目，如远程用户设备172(例如，Roger的移动电话)的扩展视图180所示，但是属于Anna的另一伴随设备可以替代地具有指示以下信息的类似条目：Beatrice，Carol和Roger正在出席(例如，省略了正在查看伴随设备的会议参与者正在出席的指示)。在一些例子中，可以对在可回看转录本中显示的信息进行总结和/或上下文化，以引起会议参与者对可能感兴趣的事件的注意。

在一个例子中，当会议参与者迟到会议或提前离开会议时，可回看转录本可以聚焦在该会议参与者缺席的会议部分。类似地，可回看转录本可以聚焦于转录本中的特定时间，其中在该特定时间，提及了会议参与者的姓名或参与者感兴趣的内容。例如，如果会议参与者离场较早，则可回看转录本可以聚焦于提及该会议参与者姓名的时间、以及上一个和下一个句子、短语或摘要以提供上下文。在一些例子中，可以向所有会议参与者、甚至是受邀但从未露面的会议参与者、仅在会议中提及的会议参与者、和/或对于会议中提到的内容感兴趣的会议参与者(即使这些参与者从未被邀请)，提供可回看转录本。

更一般地，可以使用任何适当的机器学习(ML)和/或人工智能(AI)技术来分析可回看转录本，其中对于在会议期间观察到的原始音频，这种分析可以包括识别与原始音频相对应的文本，并识别文本和/或原始音频的一个或多个显著特征。ML和/或AI技术可以识别的显著特征的非限制性示例包括：1)意图(例如，会议参与者的预期任务)，2)上下文(例如，会议参与者当前正在执行的任务)，3)主题和/或4)动作项目或承诺(例如，会议参与者承诺执行的任务)。更一般地，可以使用基于ML和/或AI的技术，以基于原始音频、原始视频和/或对应的文本来识别任何感兴趣的内容。在一些例子中，可以基于关于原始音频和/或相应文本的显著特征的用户反馈，来训练ML和/或AI系统。例如，当会议参与者使用通过伴随设备和/或手势提交的标签以在会议期间标记感兴趣的事件时，可以将标注的事件与这些事件被标注时发生的原始音频结合使用，作为针对ML和/或AI进行监督训练的训练数据，以识别会议参与者可能在将来的会议中标记的事件。可以对有限的一组用户(例如，组织或组织内的团队)或更大的用户群进行ML和/或AI系统的训练，以识别显著的特征。可以使用最新技术和/或将来的ML、AI和/或自然语言处理(NLP)技术的任何适当组合(例如，如上所述的ML、AI和/或NLP技术)，来分析会议的可回看转录本或者会议的任何其它方面。

在一些例子中，代替向会议参与者提供可回看转录本或除了向会议参与者提供可回看转录本之外，可以将可回看转录本提供给其他个人。在一个例子中，可以向会议参与者的主管、同事或雇员提供可回看转录本。在一个例子中，与会议相关联的会议负责人或组织的任何其他适当成员可以限制该可回看转录本的共享(例如，根据组织的安全和/或隐私政策，需要会议负责人的许可才能进行共享，或者使可回看转录本只能在组织内共享)。可以以未删节和/或编辑的形式来共享可回看转录本，例如，会议负责人可以在与任何适当的个人共享经编辑的转录本之前，首先审阅可回看转录本以便编辑敏感信息。可以对可回看转录本进行过滤，以聚焦于接收到该可回看转录本的任何个人的感兴趣的内容(例如，名字提及和动作项)。

一个或多个会议参与者(例如，会议负责人或指定的审阅者)可以审阅可回看转录本，以便编辑转录本，例如，根据记录的对话音频来纠正不正确转录的对话，以删除和/或编辑转录本条目，和/或向未被识别或错误识别的会议参与者提供识别。可以在收集会议转录本时和/或会议结束后，实时进行这种纠正性审查。

在会议之后，可以将可回看转录本发送给每个会议参与者和/或保存到计算机化智能助理1300和/或后端服务器1320，以备存档和后续使用。可以将可回看转录本与一个或多个计算机服务(例如，电子邮件应用程序、日历应用程序、笔记记录应用程序和/或团队协作应用程序)进行关联地保存。

图16描绘了相对于图15，在稍后的时间的会议环境100。如图16中所示，扩展视图180示出了将记录条目18l更新为包括会议的更多细节。此外，将滚动条182更新为包括与转录本条目181中的特定事件相关的事件“E1”和“E2”。例如，事件“E1”指示会议的开始、本地参与者164(Carol，会议负责人)到达时间。在一些例子中，在扩展视图180中描绘的GUI可以允许远程参与者162(Roger)通过选择滚动条182上显示的事件，来导航至转录本中的特定时间。虽然本文使用通用标记(例如，“E1”和“E2”)来描绘事件，但用于会议参与者和/或转录本审查的GUI可以替代地使用描述性标记(例如，单词和/或符号)来指示特定类型的事件，例如名字提及、动作项、共享文件、或者如本文所述的任何其它合适的事件。

如转录本中所示，在本地参与者164(Carol，会议负责人)到达后，本地参与者164(Carol)表示她将在等待另一个本地参与者165(Dan)的同时建立白板。简要返回到图14，在211创建转录本还包括：在214处，对本地参与者对话进行转录。本地参与者对话的这种转录可以包括：例如使用自然语言用户界面和/或计算机化智能助理1300和/或后端服务器1320的自然语言处理机，将本地参与者对话的语音音频与语音音频的文本转录相关联。本地参与者对话的这种转录还可以包括：例如基于将语音音频与本地参与者的预注册签名进行相关，和/或基于将位置敏感的麦克风(例如，麦克风阵列)捕获的语音音频的物理位置与讲话者的物理位置(例如，基于识别所识别面部的物理位置来识别)进行相关，使本地参与者对话的语音与本地参与者的身份相关联。因此，转录本包括：基于当本地参与者164(Carol)讲话时捕获的经转录语音音频的语音文本。本文可以使用“板”来指代白板190，或更一般地指代用于与会议环境100中的其他本地参与者共享视觉信息(例如，模拟多媒体内容)的任何适当的介质(例如，黑板、纸、计算机显示器、高架透明显示器和/或高架摄像机显示器)。

在一些例子中，计算机化智能助理1300可以实时地收集转录的语音和/或讲话者身份信息，以便实时地建立转录本，和/或以便向会议参与者实时提供关于转录的语音的通知。在一些例子中，计算机化智能助理1300可以被配置为针对麦克风捕获的语音音频流，识别当前讲话者并分析语音音频，以便基本上并行地和/或实时地转录语音文本，使得可以独立地获得讲话者身份和转录的语音文本。因此，计算机化智能助理1300能够向会议参与者实时提供通知(例如，用于在伴随设备上显示)，该通知指示另一个会议参与者当前正在讲话并且包括另一个会议参与者的转录语音(甚至在另一个会议参与者发言完毕之前)。类似地，即使在已经识别出另一个会议参与者之前并且甚至在另一个会议参与者已经完成讲话之前，计算机化智能助理1300也能够向会议参与者提供包括另一个会议参与者的转录语音的通知。

计算机化智能助理1300能够捕获共享的视觉信息的图像(例如，来自白板190的图像)。简要返回到图14，在211创建转录本可以进一步包括：在215处跟踪共享的视觉信息。跟踪共享的视觉信息可以包括：检测到共享视觉信息的白板上或其它位置的变化，例如，通过检测新的视觉内容(例如，添加到白板上的新图表)。跟踪共享的视觉信息可以包括：将白板的每个改变与时间戳进行相关。跟踪共享的视觉信息可以包括：增强和/或校正所捕获的白板的图像。增强和/或校正捕获的图像可以包括几何校正(例如，校正由计算机化智能助理1300的摄像机相对于白板190的视角引入的歪斜)、校正白板的锐度、亮度和/或对比度(例如，通过将计算机化智能助理1300的摄像机检测到的颜色量化为与用于在白板190上书写的不同墨水颜色的数量相对应的有限数量的颜色)，和/或执行光学字符识别以识别在白板上绘制的文本和/或符号。因此，经增强和/或校正的图像是添加到白板上的新视觉内容的图形表示，可以将其与指示何时添加新视觉内容的时间戳相关联地保存在转录本中。转录机被配置为识别会议参与者共享的视觉信息(例如，在计算机化智能助理1300的摄像机捕获的数字视频中，或者在远程会议参与者的伴随设备所捕获的数字视频中)，并将表示视觉信息的数字图像包括在转录本中。转录机还被配置为识别共享的视觉信息的变化，并相应地在转录本中包括示出视觉信息的变化的差异图像以及视觉信息发生改变的时间的指示(例如，更改的时间戳)。

因此，如扩展视图180中所示，用于远程参与的GUI可以在整个会议的各个时间包括白板190的一个或多个描绘。例如，当本地参与者164(Carol)向白板190添加内容时，扩展视图180包括白板190的两个描绘(即，第一图示184和第二图示185，其中在第二图示185中已经添加了更多内容)。在一些例子中，白板190的描绘(例如，第一图示184和第二图示185)可用于在整个转录本中导航，例如，远程参与者162(Roger)能够选择第一图示184以导航到转录本中与指示第一图示184中显示的内容何时添加到白板上的时间戳相关的时间。类似地，远程参与者能够在转录本中选择时间(例如，使用滚动条182)，因此，GUI可以显示白板的有限数量的描绘，例如，与转录本中的该时间相关联的先前时刻的白板、以及结合白板的前一和后一描绘来提供上下文。替代地或另外地，用于远程参与的GUI可以包括白板190的实时视频描绘，其示出了当向其添加内容时的白板190。在一些例子中，可以通过以下方式来处理白板的描绘以去除遮挡：通过描绘在未被遮挡时刻的白板，和/或通过基于被遮挡区域在先前未被遮挡时刻的白板内容，来内插被遮挡区域中的白板内容。例如，如图16中所示，本地参与者164(Carol)可能在向白板190添加内容的同时暂时地遮挡白板190，但是第一图示184和第二图示185仅示出了白板的内容。因此，转录机被配置为识别白板上共享的视觉信息的遮挡，并处理先前保存的板上图像(例如，表示白板上视觉信息变化的差异图像)以创建处理后的图像(其显示了去除遮挡的视觉信息)，以便将处理后的图像包括在转录本中。

简要返回到图14，在211处创建转录本还包括：在216处，识别转录本中的感兴趣的内容。这种感兴趣的内容可以包括任何适当的内容(例如，会议参与者的预先注册的感兴趣的内容，如上所述)。在一些例子中，识别感兴趣的内容可以包括：在217处识别参与者的名字提及。例如，如图16中所示，当本地参与者164(Carol)提及本地参与者165(Dan)的名字时，可以将这样的提及识别为本地参与者165(Dan)和/或其它会议参与者潜在感兴趣的事件“E2”。在一些例子中，计算机化智能助理1300可以基于对感兴趣的内容的识别，向一个或多个会议参与者发送通知，例如，计算机化智能助理1300可以向本地参与者165(Dan)的本地用户设备175发送通知消息，例如，在Dan忘了会议或未能接收/确认邀请的情况下提醒Dan。相应地，在本地用户设备175接收到通知消息后，本地参与者165(Dan)到达会议并为他的迟到而道歉。在一些例子中，可以向所有会议参与者显示(例如，通过转录本和/或通知)认出的名字提及。在其它例子中，可以仅向会议参与者的一个子集(例如，仅向远程参与者、仅向会议负责人、或者仅向自己的名字被识别的会议参与者)显示认出的姓名提及。在一些例子中，转录本可以包括与会议参与者感兴趣的内容有关的转录本的一部分的指示，例如，指示在会议期间何时讨论了感兴趣的内容的时间戳。

简要返回到图14，虽然在图13和图15到图19中没有示出，但识别感兴趣的内容可以进一步包括：在218处识别动作项。识别动作项可以是基于识别出承诺(例如，当会议参与者承诺执行任务时，或者当第一会议参与者请求第二会议参与者执行任务时)，或者会议中出现的任何其它适当的细节，其中这些细节可能表明一个或多个会议参与者应就特定事项进行跟进。因此，这样的会议参与者可以接收到与该动作项目有关的通知，和/或在转录本中查看与该动作项有关的事件。

图17描绘了在本地参与者165(Dan)找到他的座位之后，相对于图15和16的另一稍后时间的会议环境100。如转录本条目181所示，本地参与者163(Beatrice)询问远程参与者162(Roger)是否在公共汽车上。因此，基于识别出提到罗杰的名字，转录本条目181和滚动条182表示与Beatrice的问题相关联的事件“E3”。远程参与者162(Roger)相应地填写聊天条目框183，指示他确实在公共汽车上。

图18描绘了相对于图15到图17的另一稍后时间的会议环境。简要返回到图14，创建转录本还包括：在219处，对远程参与者的对话进行转录。因此，如图18中的扩展视图180所示，将转录本条目181更新为包括远程参与者162(Roger)先前通过聊天输入框183输入并发送的响应。

在本公开内容中，根据经由聊天输入框183远程发送文本消息来描述远程参与，但是远程参与通常可以包括：发送视听数据(例如，语音/视频呼叫数据)以供其他(本地和/或远程)会议参与者收听/观看，例如，通过在计算机化智能助理1300的扬声器上输出音频数据和/或通过在伴随设备上显示视频数据。类似地，虽然远程用户设备172的扩展视图180描绘了包括会议的文本转录本的基于文本的界面，但是远程用户设备可以替代地或另外地输出视听数据(例如，正在发言的本地参与者的实时语音音频和视频)。

简要返回到图14，在211处创建转录本可以进一步包括：在220处跟踪共享的数字信息。这种共享的数字信息可以包括任何适当的数字内容，例如，文字处理器文档、演示幻灯片、多媒体文件、计算机程序或者会议参与者正在回看的任何其他文件。例如，跟踪共享的数字信息可以包括：跟踪会议参与者之间共享一个或多个文件的时间。在一些例子中，跟踪共享的数字信息可以包括：跟踪会议参与者观看、编辑或以其它方式访问数字文件的特定区域(例如，演示文稿的页面或幻灯片、或多媒体文件的时间戳)的时间。例如，此类跟踪可以使得能够在转录的对话旁查看演示幻灯片。因此，如图18中的转录本条目181所示，当Beatrice共享“SALES_REPORT”文件时，在适当的时间在转录本中记录这种共享，并生成事件“E4”，从而允许导航到共享该文件的时间。虽然前述示例描述了本地参与者对数字文件进行共享，但是任何本地或远程参与者可以共享该数字文件(例如，通过使用用于远程参与的GUI的文件提交界面，图13和图15到图19中没有示出))。当转录本包括对共享的数字内容项的引用时，转录本可以另外包括共享的数字内容项的副本(例如，作为数字文件)。替代地或另外地，转录本可以另外包括：可用于检索数字内容项的共享数字内容项的描述符(例如，统一资源定位符(URL))。因此，引用共享数字内容项的转录本事件(例如，事件“E4”)可以链接到数字内容项或者数字内容项的一部分(例如，事件“E4”链接到“SALES_REPORT”文件)。

在一些例子中，共享的数字信息可以与数字白板相关联。由于在整个会议期间共享数字内容项，因此可以更新数字白板以显示已经共享的内容项。另外，会议参与者还能够向数字白板添加注释，其中注释可以包括任何适合显示的内容以及共享的内容项(例如，文本、图表、以及更一般地墨迹注释)。数字白板可以被配置为在空间位置上显示每个共享的数字内容项，例如，以便模拟在物理空间中的文档排列。因此，添加到数字白板的注释可以指示共享的数字内容项之间的关系(例如，通过从一个数字内容项到另一个数字内容项画箭头)。与共享的视觉信息和会议的其它细节一样，每当数字内容项或注释共享到数字白板和/或每当在对话中修改、查看或提及数字白板上的数字内容项时，计算机化智能助理1300可以向转录本添加事件，该事件描述对数字白板的改变和/或示出当前时间的数字白板的快照。用此方式，可以使用数字白板来导航转录本和/或可以使用转录本来导航对数字白板的更改，类似于具有共享的视觉信息(例如，类似于计算机化智能助理1300如何跟踪真实白板)。在一些例子中，转录机被配置为从会议参与者的伴随设备接收要共享的数字文件的指示，并因此在转录本中包括对该数字文件进行共享的指示。在一些例子中，转录机被配置为识别任何会议参与者何时访问该文件的一部分，并因此包括对访问的文件部分的指示以及访问该数字文件的时间。

转录本条目181还包括本地参与者(例如，本地参与者163(Beatrice)和本地参与者164(Carol))之间的对话，其包括识别Beatrice的名字并基于该名字提及来生成事件“E5”的对话。此外，如图18中所示，本地参与者164(Carol)已更新了白板190。因此，除了白板190的第一图示184和第二图示185外，扩展视图180还包括白板190的第三图示186。

图19示出了相对于图15到图18的另一稍后时间的会议环境100。虽然没有示出，但在该稍后的时间，会议参与者进行了更多的对话，从而导致扩展视图180中所示的转录本条目181滚动到先前附图中所示的条目。如转录本条目181中所示，本地参与者164(Carol)建议查看先前由本地参与者163(Beatrice)共享的“SALES_REPORT”文件。但是，此时，在会议中，由于事先的承诺，本地参与者161(Anna)需要离开。简要返回到图14，在211处创建转录本包括：在221处跟踪参与者的离开。

跟踪本地参与者的离开可以包括：以与上面关于跟踪参与者的到达所描述的方式类似的方式来识别参与者(例如，基于视听数据)。跟踪参与者的离开可以包括：对于识别的本地参与者，跟踪本地参与者的物理位置(例如，基于在摄像机处捕获的视觉信息或基于伴随设备)，并认为参与者在其实际位置离开会议环境100的阈值距离后离开。类似地，跟踪参与者的离开可以包括：对于识别的本地参与者，认识到在视听数据中不再可检测到该本地参与者(即使在没有肯定确认该本地参与者已离开会议环境100的情况下)。类似地，跟踪参与者的离开可以包括：对于识别的本地参与者，认识到该本地参与者可能在离开会议环境100的本地参与者之前离开。这种识别可以包括：跟踪本地参与者的物理位置的轨迹(例如，因为本地参与者走向会议环境100的出口)。这种识别还可以包括：检测到指示本地参与者可能离开的视听提示(例如，如果本地参与者说“再见”并向其他参与者挥手，和/或如果其他参与者向本地参与者说“再见”)。可以对多个信号进行组合来检测参与者的离开，并且可以对这些信号进行分析以确定在转录本更新之前识别离席的置信度，从而基于置信度超过预定阈值来确定离开；例如，如果本地参与者说“再见”，则计算机化智能助理1300可以推断出参与者很可能离开(在具有第一置信度的情况下)，如果本地参与者随后收拾行李并走向门口，则计算机化智能助理1300可以推断该本地参与者很可能第二个离开(其具有超过预定义阈值的更高置信度)，从而导致计算机化智能助理1300推断该本地参与者确实离开。

在一些例子中，计算机化智能助理1300可以被配置为基于会议参与者的日程安排和/或上下文，来推断会议参与者可能离开。在一个例子中，计算机化智能助理1300可以基于一个会议参与者被邀请参加在第一会议期间和/或之后不久发生的第二不同会议，推断出该会议参与者正在离开第一会议。在一个例子中，计算机化智能助理1300可以基于会议参与者在会议期间做出承诺(例如，基于会议参与者宣布他们将立即开始任务)，来推断会议参与者正在离开会议。计算机化智能助理1300可以将基于日程安排和/或上下文的参与者可能离开的推论与其它信号(例如，挥手“再见”)进行组合，并且因此可以推断出会议参与者正在以相对较高的置信度离开(例如，与仅基于会议参与者的日程安排的推断相比，或者与仅基于计算机化智能助理1300在会议环境中观察到的信号的推断相比)。

类似于跟踪远程参与者的到达，跟踪远程参与者的离开可以是基于远程参与者的登录和/或可用性状态(例如，基于远程用户从用于远程参与的GUI中退出)。

虽然在图13和15到图19中没有示出，但会议参与者可能短暂地离开会议，只是在会议结束之前稍后返回(例如，休息一下或参加另一件事)；因此，在整个会议期间记录转录本可以包括：跟踪每个会议参与者的多次到达和离开。除了在221处跟踪个人离开之外，计算机化智能助理1300还可以被配置为跟踪所有会议参与者何时离开、会议参与者离开的阈值部分(例如，50％)、和/或会议负责人何时离开。可以使用各种离开标准，以便自动地结束会议和/或停止创建转录本。在一些例子中，计算机化智能助理1300可以被配置为提示仍在参加会议的会议参与者是否应当停止会议或者是否应当继续进行记录，其中此类提示可以包括任何适当的通知(例如，语音音频问题或者在伴随设备的GUI上显示的提示)。

返回到图19，在本地参与者161(Anna)离开会议室之后，转录本条目181包括Anna已离开的指示。

转录本条目181还指示本地参与者163(Beatrice)正在例如在本地用户设备173上查看先前共享的“SALES_REPORT”文件的特定页面。

简要返回到图14，在211处创建转录本可以进一步包括：在222处跟踪通过伴随设备提交的标签。例如，伴随设备可以被配置为解释特定的GUI输入、手势、音频命令或者任何其它合适的输入，以指示应当在当前时间戳上将新事件添加到转录本中。这种标签可以指示转录本或任何其它适当事件中的感兴趣时间(例如，书签)。在一些例子中，伴随设备可以被配置为识别多个不同的标签，每个标签对应于要在转录本中记录的不同事件。因此，在图19的扩展视图180中示出的转录本条目181包括远程参与者162(Roger)向时间线添加书签的指示。与其它事件一样，通过伴随设备添加的标签可以指示特定用户和/或所有用户感兴趣的事件。

简要返回到图14，在211处创建转录本可以进一步包括：在223处跟踪参与者手势(例如，手势)。这种手势可以包括先前定义的手势，该手势可以指示计算机化智能助理1300的事件和/或控制行为。因此，可以由被配置为识别一个或多个手势的姿势识别机来执行对手势的识别。可以经由ML和/或AI技术的任何适当的组合(例如，使用为姿势识别而训练的神经网络)来实现姿势识别机。

在一个例子中，手势是“关闭记录”手势，其指示应当停止记录和/或自动地创建转录本。因此，计算机化智能助理1300可以至少暂时地停止响应于识别到“关闭记录”手势(例如，通过姿势识别机)来自动创建转录本。在识别出这种手势之后，计算机化智能助理1300可以被配置为停止记录，直到接收到不同的“打开记录”手势和/或语音命令为止。当进行“关闭记录”时，计算机化智能助理1300可以被配置为向本地参与者提供通知(例如，诸如光从绿色转变成红色的确认信号)。当进行“关闭记录”时，计算机化智能助理1300可以被配置为通知远程参与者(例如，通过在伴随设备处提供通知消息)。在一些例子中，本地和/或远程参与者正在查看的转录本可以临时地包括“关闭记录”事件(例如，以便使远程参与者保持对情况的了解)，并且可以稍后从后端服务器1320、计算机化智能助理1300和伴随设备中删除这种“关闭记录”事件。这样的稍晚时间可以是会议结束时间、返回到记录的时间，也可以是其它适当的较晚时间(例如，24小时之后)。替代地，计算机化智能助理1300可以被配置为完全地从转录本中省略“关闭记录”事件。当从转录本中省略“关闭记录”事件时，计算机化智能助理1300可以向会议参与者提供可能正在发生“关闭记录”事件的指示。替代地，计算机化智能助理1300可以不向会议参与者通知该会议当前是“关闭记录”，或者可以仅向会议参与者的一个子集(例如，会议负责人、仅远程参与者、或者仅先前指定的参与者子集)通知该会议当前处于“关闭记录”状态。在远程参与者的伴随设备被配置为输出会议的音频/视频的例子中，当会议处于“关闭记录”状态时，可以选择性地将会议音频/视频静音/不显示给未经授权的远程参与者(例如，当会议处于“关闭记录”时，计算机化智能助理1300可以不将会议音频/视频发送到远程参与者的伴随设备)。在一些实施方式中，可以基于用户证书/特权来设置会议的关闭记录部分的授权，并且在一些实施方式中，可以基于会议参与者指令来动态地设置授权。

在一个例子中，计算机化智能助理1300被配置为识别用于指示请求和/或动作项的手势，以便向转录本添加事件。在一些例子中，计算机化智能助理1300可以被配置为识别多个不同的预定义手势，以指示不同种类的事件(例如，类似于经由伴随设备提交的不同种类的标签，如上所述)。例如，姿势识别机可以识别指示发生了感兴趣事件的手势，并且相应地，响应于姿势识别机对手势的检测，转录机可以在转录本中包括发生了感兴趣事件的指示。

在一个例子中，计算机化智能助理1300被配置为识别手势，以便调解本地和/或远程参与者之间的对话。例如，计算机化智能助理1300可以被配置为将举起的手识别为指示本地参与者希望插入的手势，因此，响应于识别到举起的手势，可以通过警告其他参与者和/或调整记录来促进插入。

在211处创建转录本可以包括：在224处识别情感。例如，识别这样的情感可以包括：操作先前训练的机器学习分类器以将词语和/或短语分类为积极、负面和/或与特定的情感相关联(例如，“高兴”或“愤怒”)。在一些例子中，机器学习分类器可以被配置为接收原始音频和/或视频数据，并基于原始音频数据(例如，基于语音音调)和/或基于原始视频数据(例如，基于面部表情和/或肢体语言)来识别情感。替代地或另外地，机器学习分类器可以被配置为接收在211处自动记录的任何其它适当的转录本数据(例如，具有文本形式的转录的语音音频)。转录机可以被配置为分析该转录本以检测具有预定义情感(例如，积极、负面、“高兴”或任何其它适当的情感)的词语，以便在会议参与者的伴随设备上呈现情感分析摘要，指示具有预定义情感的词语发声的频率。

在211处创建转录本可以包括：在225处识别非语言暗示。例如，这种非语言暗示可以包括笑声、抬高的声音、长时间的停顿/沉默、掌声、中断、以及任何其它特征的时间序列、和/或在自然对话期间可能出现的对话内容的传送。

虽然图13和图15到图19描述了由计算机化智能助理1300识别/跟踪以生成实时通知和/或添加为可回看转录本的事件的非限制性示例，但是计算机化智能助理1300可以识别/跟踪本文所描述的任何其它事件或会议的细节，以便生成通知并记录可回看的转录本。

返回到图14，方法200进一步包括：在261处提供参与者反馈。这种反馈可以是基于在211处在整个会议期间观察到的任何适当的细节(例如，基于对会话转录本的分析或者基于对细节的分析，因为在整个会议期间都对它们进行观察)。在一些例子中，这种反馈可以是基于224处识别的情感和在225处识别的非语言暗示。

图20示出了基于在会议期间观察到的细节的参与者反馈2000的非限制性示例。例如，参与者反馈2000可以在伴随设备上进行显示，保存到后端服务器1320，或者是会议参与者或其他人可获得的。参与者反馈2000可以用于自我指导，例如，以改善会议体验和帮助会议参与者学习如何更有效地彼此合作。

参与者反馈2000包括情感分析摘要2001，后者包括在转录本中出现的与情感相关的词语的“词汇云”，在视觉上用指示其发声频率的大小来表示(例如，“感谢”是最常见的在会议期间观察到的与情感相关的词语)。

参与者反馈2000还包括总体情绪摘要2002，该总体情绪摘要2002表明哪些会议参与者表达了各种总体情绪。例如，总体情绪概要2002可以是基于与不同情绪(例如，平均情绪)相对应的情绪相关词语的发声频率。如图所示，Anna、Carol、Robert和Roger平均表现出积极的情绪，而Beatrice则平均表现出快乐的情绪，Dan则平均表现出负面的情绪。

参加者反馈2000还包括参加摘要2003，其指示不同的会议参与者何时在会议期间讲话或者以其他方式参加会议(例如，作为直方图，其中X轴指示会议中的时间段，Y轴指示在每个时间段期间的参与频率)。替代地或另外地，参与者反馈可以指示在会议期间是否每个会议参与者都在场(例如，通过视觉地呈现每个参与者的图标以及视觉指示符(例如，在场的每个参与者的复选标记)，通过视觉地呈现在场的参与者列表和不在场的参与者列表，或者通过以任何其它适当的方式来指示会议参与者的出席和/或缺席)。

虽然图20描绘了与所有会议参与者有关的参与者反馈，但替代地或另外地，参与者反馈可以是特定于一个会议参与者，例如，仅显示会议参与者说出的情感词的情感分析词汇云。

虽然在图20中没有示出，但是参与者反馈可以进一步包括：基于对计算机化智能助理1300识别的情绪和/或非语言暗示的分析的建议。例如，如果Anna经常打断Beatrice，则这种建议可以指导安娜在打断别人时要格外小心，并在转录本中注明安娜打断Beatrice的时间。因此，Anna也许可以回看转录本，以更加了解自己何时打断他人。参与者反馈可以进一步包括话语引起特定反应的示例性交互，例如，如果Carol说出了使Dan表现出负面情绪的话，则给Carol的参与者反馈可以指出她说了让Dan表现出负面情绪的话。类似地，反馈可以指示导致各种其它情感的示例性交互、以及非语言暗示(如，声音升高、打断、暂停/沉默和会议参与者离开会议)。在一些例子中，计算机化智能助理1300可以使用这些示例性交互，以识别会议期间的冲突原因，和/或识别会议进行得特别顺利的部分。

参与者反馈还可以包括：关于会议的时间安排和/或后勤安排的反馈。例如，这种反馈可以包括引起人们对会议是否按计划开始和/或结束的注意，以及对哪些会议参与者提早出现、晚到和/或提早离开的指示。

可以为每个单独的会议参与者和/或特定会议的参与者，生成参与者反馈。替代地或另外地，可以针对组织和/或组织内的团队举行的所有会议，来汇总参与者反馈。例如，这种参与者反馈可以例如通过以下方式，来提供关于单个参与者和/或组织行为的累积统计信息：测量按时开始的会议的百分比、在整个会议中保持沉默的会议参与者的百分比、或者任何其它适当的统计信息、和/或对转录本中捕获的细节的分析。

在一些例子中，计算机化智能助理1300可以包括参与者反馈机，该参与者反馈机被配置为自动地分析转录本，以便与会议参与者的伴随设备通信地耦合，并且基于转录本的分析，向会议参与者提供关于会议的反馈(例如，参与者反馈2000)。在一些例子中，关于会议的反馈包括以下中的一个或多个：发送到伴随设备的通知消息、以及可在伴随设备上显示的可回看转录本(例如，如图13和图15到图19中所示的可回看的转录本条目181)。

即使在会议环境中未安排会议或正在进行会议时，计算机化智能助理1300仍可以在会议环境中为用户提供帮助。例如，计算机化智能助理1300可以知道其它预定的会议(例如，在不同的会议环境中或者在同一会议环境中的不同时间)。计算机化智能助理1300可以与后端服务器1320和/或与其它不同的计算机化智能助理协作，以在组织内或者跨多个组织来维护会议的共享时间表和/或位置映射(例如，楼层地图)。例如，图21描绘了在没有召开会议的稍后时间的图13和15到图19中所示的会议环境100。个人167(Eric)出现在会议环境100中，以查找空的会议室。因此，计算机化智能助理1300可以输出语音音频，从而通知个人167(Eric)他的会议在不同的房间中。在一些例子中，计算机化智能助理1300可以使用位置映射来给出详细的指示(例如，会议室在楼上左边)。在一些例子中，计算机化智能助理1300可以识别出一个人基本上早于会议(例如，早一小时或前一天)到达，并通知他们该会议何时发生。在一些例子中，计算机化智能助理1300可以识别出个人错过了会议，并且因此可以在会议发生时通知个人，和/或提供会议的可回看转录本。

本文所描述的方法和过程可以与一个或多个计算设备的计算系统联系在一起。具体而言，可以将这样的方法和过程实现为可执行的计算机应用程序、网络可访问的计算服务、应用程序接口(API)、库、或者以上和/或其它计算资源的组合。

图22示意性地示出了计算系统1300的简化表示，该计算系统1300被配置为提供本文所描述的任何或者所有计算功能。计算系统1300可以采取一个或多个个人计算机、网络可访问的服务器计算机、平板计算机、家庭娱乐计算机、游戏设备、移动计算设备、移动通信设备(例如，智能手机)、虚拟/增强/混合现实计算设备、可穿戴计算设备、物联网(IoT)设备、嵌入式计算设备和/或其它计算设备的形式。例如，计算系统1300可以是计算机化智能助理1300。

计算系统1300包括逻辑子系统1002和存储子系统1004。计算系统1300还包括摄像机1012和麦克风1014。计算系统1300可以可选地包括显示子系统1008、输入/输出子系统1010、通信子系统1012和/或未在图22中显示的其它子系统。

逻辑子系统1002包括被配置为执行指令的一个或多个物理设备。例如，逻辑子系统可以被配置为执行作为一个或多个应用程序、服务或其它逻辑构造的一部分的指令。逻辑子系统可以包括被配置为执行软件指令的一个或多个硬件处理器。另外地或替代地，逻辑子系统可以包括被配置为执行硬件或固件指令的一个或多个硬件或固件设备。逻辑子系统的处理器可以是单核或多核的，并且在其上执行的指令被配置为进行顺序地、并行地和/或分布式处理。逻辑子系统的各个组件可以可选地分布在两个或多个单独的设备中，这些单独的设备可以远程地放置和/或被配置为进行协同处理。可以通过以云计算配置进行配置的可远程访问的联网计算设备，来虚拟化并执行逻辑子系统的各方面。

存储子系统1004包括被配置为临时和/或永久地保存计算机信息(例如，逻辑子系统可执行的数据和指令)的一个或多个物理设备。当存储子系统包括两个或多个设备时，这些设备可以是并置的和/或彼此远离的。存储子系统1004可以包括易失性、非易失性、动态、静态、读/写、只读、随机存取、顺序存取、位置可寻址、文件可寻址和/或内容可寻址的设备。存储子系统1004可以包括可移动和/或内置设备。当逻辑子系统执行指令时，可以改变存储子系统1004的状态，例如以保存不同的数据。

可以将逻辑子系统1002和存储子系统1004的各方面一起集成到一个或多个硬件逻辑组件中。这种硬件逻辑组件可以包括特定于程序的集成电路和专用集成电路(PASIC/ASIC)、特定于程序的标准产品和特定于应用的标准产品(PSSP/ASSP)、片上系统(SOC)、以及复杂可编程逻辑器件(CPLD)。

逻辑子系统和存储子系统可以进行协作以实例化一个或多个逻辑机。例如，计算系统1300的逻辑子系统1002和存储子系统1004被配置为实例化面部识别机1020、语音识别机1022、归属机1024、转录机1026和姿势识别机1028。如本文所使用的，术语“机器(machine)”用于统称硬件以及与该硬件协作以提供计算机功能的任何软件、指令和/或其它组件。换句话说，“机器”永远不是抽象的思想，而总是具有有形的形式。机器可以通过单个计算设备实例化，或者机器可以包括由两个或更多不同计算设备实例化的两个或更多子组件。在一些实施方式中，机器包括与远程组件(例如，云计算服务)协作的本地组件(例如，软件应用程序)。赋予特定机器其功能的软件和/或其它指令，可以可选地作为未执行的模块保存在适当的存储设备上。

可以使用最新技术和/或未来机器学习(ML)、人工智能(AI)和/或自然语言处理(NLP)技术的任何适当组合来实现机器。可以并入在一个或多个机器的实现中的技术包括支持向量机、多层神经网络、卷积神经网络(例如，其包括用于处理图像和/或视频的空间卷积网络、用于处理音频信号和/或自然语言语句的时间卷积神经网络、和/或被配置为在一个或多个时间和/或空间维度上对特征进行卷积和池化的任何其它适当的卷积神经网络)、递归神经网络(例如，长短期记忆网络)、关联存储(例如，查找表、哈希表、Bloom过滤器、神经图灵机和/或神经随机存取存储器)、词嵌入模型(例如，GloVe或Word2Vec)、无监督的空间和/或聚类方法(例如，最近邻算法、拓扑数据分析和/或k均值聚类)、图形模型(例如，马尔可夫模型、条件随机字段和/或AI知识库)和/或自然语言处理技术(例如，标记化、词干、构成和/或依赖项解析和/或意图识别)。

在一些例子中，可以使用一个或多个可微分函数来实现本文所描述的方法和过程，其中可以关于可微分函数的输入和/或输出，来计算和/或估计可微分函数的梯度(例如，关于训练数据，和/或关于目标函数)。可以至少部分地通过一组可训练的参数来确定这些方法和过程。因此，可以通过任何适当的训练过程来调整用于特定方法或过程的可训练参数，以便不断改善该方法或过程的功能。

用于调整可训练参数的训练过程的非限制性示例包括有监督训练(例如，使用梯度下降或者任何其它适当的优化方法)、零击、少击、无监督的学习方法(例如，基于从无监督聚类方法中得出的类别进行分类)、强化学习(例如，基于反馈的深度学习)和/或生成对抗性神经网络训练方法。在一些例子中，可以关于测量多个组件的集体功能的性能的目标函数(例如，关于增强反馈和/或关于标注的训练数据)，同时地训练本文所描述的系统的多个方法、过程和/或组件。同时训练所述多个方法，过程和/或组件可以改善这种集体功能。在一些例子中，可以独立于其它组件，来训练一种或多种方法、过程和/或组件(例如，对历史数据进行离线训练)。

当包括显示子系统1008时，显示子系统1008可以用于呈现存储子系统1004所保存的数据的视觉表示。该视觉表示可以采用图形用户界面(GUI)的形式。显示子系统1008可以包括利用几乎任何类型的技术的一个或多个显示设备。在一些实现中，显示子系统可以包括一个或多个虚拟、增强或混合现实显示。

当包括输入子系统1010时，输入子系统1010可以包括一个或多个输入设备或者与一个或多个输入设备接口。输入设备可以包括传感器设备或用户输入设备。用户输入设备的例子包括键盘、鼠标、触摸屏或游戏控制器。在一些实施例中，输入子系统可以包括选定的自然用户输入(NUI)组件或者与选定的自然用户输入(NUI)组件接口。此类组件可以是集成的或外围的，并且输入动作的转换和/或处理可以在板上或板外进行。示例性NUI组件可以包括用于语音和/或语音识别的一个或多个麦克风(例如，麦克风、立体声麦克风、位置敏感的麦克风和/或麦克风阵列)；用于机器视觉和/或手势识别的红外、彩色、立体和/或深度摄像头；用于运动检测和/或意图识别的前方跟踪器、眼睛跟踪器、加速度计和/或陀螺仪。

当包括通信子系统1012时，通信子系统1012可以被配置为将计算系统1300与一个或多个其它计算设备通信地耦合。通信子系统1012可以包括与一种或多种不同的通信协议兼容的有线和/或无线通信设备。通信子系统可以被配置为经由个域网、局域网和/或广域网进行通信。

在一个例子中，一种用于促进远程会议的方法包括：从多个远程计算设备中的第一远程计算设备接收数字视频；从所述第一远程计算设备接收第一计算机可读音频信号；从所述第二远程计算设备接收第二计算机可读音频信号；操作面部识别机以识别所述数字视频中的第一远程会议参与者的面部；操作语音识别机以：1)将所述第一计算机可读音频信号转换为第一文本，以及2)将所述第二计算机可读音频信号转换为第二文本；操作归属机，其中所述归属机被配置为：1)将所述第一文本归属为所述面部识别机识别的所述第一远程会议参与者，以及2)将所述第二文本归属为第二远程会议参与者；以及操作转录机，其中所述转录机被配置为自动地创建所述会议的转录本，所述转录本包括：1)归属于所述第一远程会议参与者的所述第一文本，以及2)归属于所述第二远程会议参与者的所述第二文本。在该例子或者任何其它例子中，所述面部识别机还被配置为：针对所述数字视频中的多个远程会议参与者中的每个远程会议参与者，识别所述远程会议参与者的面部；所述归属机还被配置为：针对所述多个远程会议参与者中的每个远程会议参与者，将所述第一文本的一部分归属给所述远程会议参与者；所述转录本对于所述多个远程会议参与者中的每个远程会议参与者，包括归属于所述远程会议参与者的所述文本的部分。在该例子或者任何其它例子中，所述转录本还包括：指示所述第一远程会议参与者的抵达时间的到达时间和指示所述第一远程会议参与者的离去时间的离开时间。在该例子或者任何其它例子中，所述到达时间是基于所述面部识别机对所述第一远程会议参与者的识别时间来确定的。在该例子或者任何其它例子中，所述转录机被配置为：识别所述第一远程会议参与者感兴趣的内容；自动地识别所述转录本中的所述感兴趣的内容；并在所述转录本中包括与所述感兴趣的内容有关的所述转录本的一部分的指示。在该例子或者任何其它例子中，所述转录机被配置为：响应于识别所述转录本中的所述感兴趣的内容，向所述第一远程会议参与者的伴随设备发送通知，其中所述通知包括所述转录本中与所述感兴趣的内容相关的所述部分的所述指示。在该例子或者任何其它例子中，所述转录机还被配置为：从所述第一远程会议参与者的伴随设备接收要与所述第二远程会议参与者共享的数字文件的指示，其中，所述转录本还包括已共享所述数字文件的指示。在该例子或者任何其它例子中，所述转录机还被配置为：识别所述第一远程会议参与者和所述第二远程会议参与者中的一个或多个正在访问的所述数字文件的一部分，并且其中，所述转录本还包括所述数字文件被访问的所述部分的指示、以及访问所述文件的所述部分的时间。在该例子或者任何其它例子中，所述转录机还被配置为：在所述数字视频中，识别由所述第一远程会议参与者共享的视觉信息，并且其中所述转录本还包括表示所述视觉信息的数字图像。在该例子或者任何其它例子中，所述转录机还被配置为识别所述视觉信息的变化，并且所述转录本还包括：显示所述视觉信息的所述变化的差异图像以及所述视觉信息发生改变的时间的指示。在该例子或者任何其它例子中，所述转录机还被配置为：识别所述视觉信息的遮挡，并处理一个或多个差异图像，以创建显示去除了所述遮挡的所述视觉信息的经处理图像；并且其中，所述转录本还包括所述经处理的图像。在该例子或者任何其它例子中，所述方法还包括：在远程会议参与者的伴随设备上可视地呈现可回看转录本，其中，所述可回看转录本包括示出所述视觉信息的所述变化的所述差异图像，并且其中，所述可回看转录本被配置为响应于对所述差异图像的选择，导航到所述转录本中与所述视觉信息发生改变的所述时间相对应的部分。在该例子或者任何其它例子中，所述转录机被配置为实时地转录第一会议参与者的语音，所述方法还包括：在所述第二会议参与者的伴随设备上显示所述第一会议参与者当前正在讲话的通知，并且包括所述第一会议参与者的转录语音。在该例子或者任何其它例子中，所述转录机还被配置为分析所述转录本以检测具有预定情感的单词，所述方法还包括：在会议参与者的伴随设备处呈现情感分析摘要，其中所述情感分析摘要指示具有所述预定情感的单词的发声频率。在该例子或者任何其它例子中，所述方法还包括姿势识别机，所述姿势识别机被配置为识别所述第一远程会议参与者指示感兴趣事件的手势，并且其中，所述转录机被配置为：响应于所述姿势识别机检测到所述手势，包括发生所述感兴趣事件的指示。

在一个例子中，一种用于促进客户端设备参加会议的方法，包括：接收由摄像机捕获的数字视频；接收由麦克风捕获的计算机可读音频信号；操作面部识别机以识别所述数字视频中的本地会议参与者的面部；操作语音识别机，以将所述计算机可读音频信号转换为文本；操作归属机，以将所述文本归属于所述面部识别机识别的所述本地会议参与者；向会议服务器设备发送归属于所述本地会议参与者的所述文本；从所述会议服务器设备接收所述会议的运行转录本，其中所述运行转录本包括归属于所述本地会议参与者的所述文本，还包括归属于远程会议参与者的不同文本；并且实时地显示添加到所述运行转录本的新文本和所述新文本的属性。

在一个例子中，一种计算机化会议助理包括：摄像机，其配置为将一个或多个电磁波段的光转换为数字视频；面部识别机，其配置为：1)识别所述数字视频中的第一本地会议参与者的第一面部，以及2)识别所述数字视频中的第二本地会议参与者的第二面部；麦克风阵列，其配置为将声音转换为计算机可读音频信号；语音识别机，其配置为将所述计算机可读音频信号转换成文本；归属机，其配置为：1)将所述文本的第一部分归属于由所述面部识别机识别的所述第一本地会议参与者，以及2)将所述文本的第二部分归属于由所述面部识别机识别的所述第二本地会议参与者；以及转录机，其配置为自动地创建所述会议的转录本，所述转录本包括：1)归属于所述第一本地会议参与者的所述第一文本，以及2)归属于所述第二本地会议参与者的所述第二文本。在该例子或者任何其它例子中，所述计算机化会议助理还包括通信子系统，所述通信子系统被配置为接收归属于远程会议参与者的第二文本，其中所述转录机被配置为向所述转录本中添加归属于所述远程会议参与者的所述第二文本。在该例子或者任何其它例子中，所述转录机还被配置为：在数字视频中识别由本地会议参与者共享的视觉信息，并且其中，所述转录本还包括表示所述视觉信息的数字图像。在该例子或者任何其它例子中，所述计算机化会议助理还包括姿势识别机，所述姿势识别机被配置为识别本地会议参与者请求停止记录的手势，其中，所述转录机被配置为响应于所述姿势识别机对所述手势的识别而停止创建所述转录本。

应当理解的是，本文所描述的配置和/或方法在本质上是示例性的，并且这些特定的实施例或示例不应被认为是限制性的，这是因为可以进行众多的变化。本文所描述的特定例程或方法可以代表任何数量的处理策略中的一种或多种。这样，可以按照所示出和/或描述的顺序、以其它顺序、并行地执行所示出和/或描述的各种动作，或者进行一些省略。同样地，可以改变上面所描述的处理的顺序。

本公开内容的主题包括本文所公开的各种过程、系统和配置以及其它特征、功能、动作和/或属性的所有新颖且非显而易见的组合和子组合，以及其任何或所有等同物。

Claims

1.一种用于促进远程会议的方法，包括：

从多个远程计算设备中的第一远程计算设备接收数字视频；

从所述第一远程计算设备接收第一计算机可读音频信号；

从第二远程计算设备接收第二计算机可读音频信号；

操作面部识别机以识别所述数字视频中的第一远程会议参与者的面部；

操作语音识别机以：1)将所述第一计算机可读音频信号转换为第一文本，以及2)将所述第二计算机可读音频信号转换为第二文本；

操作归属机，其中所述归属机被配置为：1)将所述第一文本归属为所述面部识别机识别的所述第一远程会议参与者，以及2)将所述第二文本归属为第二远程会议参与者；以及

操作转录机，其中所述转录机被配置为自动地创建所述会议的转录本，所述转录本包括：1)归属于所述第一远程会议参与者的所述第一文本，以及2)归属于所述第二远程会议参与者的所述第二文本。

2.根据权利要求1所述的方法，其中：

所述面部识别机还被配置为：针对所述数字视频中的多个远程会议参与者中的每个远程会议参与者，识别所述远程会议参与者的面部；

所述归属机还被配置为：针对所述多个远程会议参与者中的每个远程会议参与者，将所述第一文本的一部分归属给所述远程会议参与者；

所述转录本对于所述多个远程会议参与者中的每个远程会议参与者，包括归属于所述远程会议参与者的所述文本的部分。

3.根据权利要求1所述的方法，其中，所述转录本还包括：指示所述第一远程会议参与者的抵达时间的到达时间和指示所述第一远程会议参与者的离去时间的离开时间。

4.根据权利要求3所述的方法，其中，所述到达时间是基于所述面部识别机对所述第一远程会议参与者的识别时间来确定的。

5.根据权利要求1所述的方法，其中，所述转录机被配置为：

识别所述第一远程会议参与者感兴趣的内容；

自动地识别所述转录本中的所述感兴趣的内容；以及

在所述转录本中包括与所述感兴趣的内容有关的所述转录本的一部分的指示。

6.根据权利要求5所述的方法，其中，所述转录机被配置为：响应于识别所述转录本中的所述感兴趣的内容，向所述第一远程会议参与者的伴随设备发送通知，其中所述通知包括所述转录本中与所述感兴趣的内容相关的所述部分的所述指示。

7.根据权利要求1所述的方法，其中，所述转录机还被配置为：从所述第一远程会议参与者的伴随设备接收要与所述第二远程会议参与者共享的数字文件的指示，其中，所述转录本还包括已共享所述数字文件的指示。

8.根据权利要求7所述的方法，其中，所述转录机还被配置为：识别所述第一远程会议参与者和所述第二远程会议参与者中的一个或多个正在访问的所述数字文件的一部分，并且其中，所述转录本还包括所述数字文件被访问的所述部分的指示、以及访问所述文件的所述部分的时间。

9.根据权利要求1所述的方法，其中，所述转录机还被配置为：在所述数字视频中，识别由所述第一远程会议参与者共享的视觉信息，并且其中所述转录本还包括表示所述视觉信息的数字图像。

10.根据权利要求9所述的方法，其中，所述转录机还被配置为识别所述视觉信息的变化，并且所述转录本还包括：显示所述视觉信息的所述变化的差异图像以及所述视觉信息发生改变的时间的指示。

11.根据权利要求10所述的方法，其中，所述转录机还被配置为：识别所述视觉信息的遮挡，并处理一个或多个差异图像，以创建显示去除了所述遮挡的所述视觉信息的经处理图像；并且其中，所述转录本还包括所述经处理的图像。

12.根据权利要求11所述的方法，还包括：

在远程会议参与者的伴随设备上可视地呈现可回看转录本，其中，所述可回看转录本包括示出所述视觉信息的所述变化的所述差异图像，并且其中，所述可回看转录本被配置为响应于对所述差异图像的选择，导航到所述转录本中与所述视觉信息发生改变的所述时间相对应的部分。

13.根据权利要求1所述的方法，其中，所述转录机被配置为实时地转录第一会议参与者的语音，所述方法还包括：在第二会议参与者的伴随设备上呈现所述第一会议参与者当前正在讲话的通知，并且包括所述第一会议参与者的转录语音。

14.根据权利要求1所述的方法，其中，所述转录机还被配置为分析所述转录本以检测具有预定情感的单词，所述方法还包括：在会议参与者的伴随设备处呈现情感分析摘要，其中所述情感分析摘要指示具有所述预定情感的单词的发声频率。

15.一种计算机化会议助理，包括：

摄像机，其配置为将一个或多个电磁波段的光转换为数字视频；

面部识别机，其配置为：1)识别所述数字视频中的第一本地会议参与者的第一面部，以及2)识别所述数字视频中的第二本地会议参与者的第二面部；

麦克风阵列，其配置为将声音转换为计算机可读音频信号；

语音识别机，其配置为将所述计算机可读音频信号转换成文本；

归属机，其配置为：1)将所述文本的第一部分归属于由所述面部识别机识别的所述第一本地会议参与者，以及2)将所述文本的第二部分归属于由所述面部识别机识别的所述第二本地会议参与者；以及

转录机，其配置为自动地创建所述会议的转录本，所述转录本包括：1)归属于所述第一本地会议参与者的所述第一文本，以及2)归属于所述第二本地会议参与者的所述第二文本。