CN115668371A

CN115668371A - 对听觉和视觉会议数据分类以推断用户话语的重要性

Info

Publication number: CN115668371A
Application number: CN202180039741.9A
Authority: CN
Inventors: E·基金-伊尔; D·Y·帕里什
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2020-06-04
Filing date: 2021-04-21
Publication date: 2023-01-31
Also published as: WO2021247156A1; EP4162488A1; US20210383127A1; US11410426B2

Abstract

在本公开的非限制性示例中，呈现了用于生成摘要内容的系统、方法和设备。可以接收用于电子会议的语音音频数据和视频数据。可以将语言处理模型应用于音频数据的转录并且可以计算文本重要性分数。可以将视频/图像模型应用于视频数据并且可以计算视觉重要性分数。可以基于文本重要性分数和视觉重要性分数针对电子会议的部分而计算综合重要性分数。可以生成包括来自综合重要性分数超过阈值的部分的摘要内容的会议摘要。

Description

对听觉和视觉会议数据分类以推断用户话语的重要性

背景技术

组织和广大民众越来越依赖电子会议应用，其中用户利用音频和/或视频连接进行电子会议。电子会议的参与者以及无法参加这些会议的用户通常会求助于会议录音和转录，以重温他们对发生的事情的回忆或弥补他们错过的事情。然而，这可能既费时又困难，因为绝大多数记录的内容对用户来说都不重要。此外，虽然一些话语可能对某些用户组有价值，但这些话语对其他用户组可能有很少的价值(如果有的话)。

正是关于这种一般技术环境，已经设想了本文公开的本技术的方面。此外，尽管已经讨论了一般环境，但是应当理解，本文描述的示例不应限于在背景中识别的一般环境。

发明内容

提供该概述以简化形式介绍概念的选择，这些概念将在下面的详细描述部分中进一步描述。该概述不旨在识别要求保护的主题的关键特征或基本特征，也不旨在用作确定要求保护的主题的范围的帮助。示例的附加方面、特征和/或优点将部分地在随后的描述中阐述，并且部分地从描述中显而易见或者可以通过本公开的实践获知。

本公开的非限制性示例描述了用于生成电子会议的摘要内容的系统、方法和设备。可以转录电子会议的音频。一个或多个语言机器学习模型可以应用于转录以识别电子会议期间分配的关键点、相关文档和/或任务。一个或多个语言机器学习模型可以将语言重要性分数分配给电子会议的一个或多个部分。一个或多个语言机器学习模型可以包括神经网络、嵌入模型和/或关键词和短语匹配模型。一个或多个视觉机器学习模型可以应用于电子会议的视频。例如，已经被训练以将面部表情和/或用户举止分类为情绪和/或兴趣类别的神经网络可以接收和处理电子会议的视频数据。基于由神经网络对电子会议参与者的视频的分类，可以将视觉重要性分数分配给电子会议的一个或多个部分。

可以基于相对应的文本重要性分数和视觉重要性分数来确定电子会议的一个或多个部分的组合重要性分数。组合重要性分数可以另外将会议参与者在组织层级中的职位考虑在内。如果确定电子会议的一部分具有高于阈值的组合重要性分数，则可以生成包括针对该部分的摘要内容的会议摘要。摘要内容可以包括在视频摘要、文档摘要和/或电子消息摘要中。会议摘要可以包括在电子会议期间分配的任务、在电子会议期间讨论的关键点、在电子会议期间提及的文档和/或电子会议的活跃参与者。

附图说明

参考下图描述了非限制性和非穷举性示例：

图1是图示了用于从电子会议生成摘要内容的示例分布式计算环境的示意图。

图2图示了显示电子会议摘要的文本版本的计算设备，该电子会议摘要已经经由将机器学习模型应用到电子会议数据而生成。

图3图示了用于使用神经网络处理视频会议数据以确定电子会议的一部分的视觉重要性分数的计算环境。

图4图示了用于由机器学习模型处理会议转录以识别重要句子以及由概括引擎对重要句子的后续处理的计算环境。

图5图示了用于对文本重要性分数、层级重要性分数和多个视觉重要性分数的聚合处理以确定电子会议的会议部分的组合重要性分数的计算环境。

图6是图示可用于识别在电子会议中被引用的重要文档的示例性机器学习模型的框图。

图7是图示可用于识别已在电子会议中分配给用户的任务的示例性机器学习模型的框图。

图8图示了显示电子会议摘要的视频版本的计算设备，该电子会议摘要已经经由将机器学习模型应用到电子会议数据而生成。

图9是用于从电子会议生成摘要内容的示例性方法。

图10和图11是可以用来实践本公开的方面的移动计算设备的简化图。

图12是图示可用来实践本发明的方面的计算设备的示例物理组件的框图。

图13是其中可以实践本公开的各方面的分布式计算系统的简化框图。

具体实施方式

将参照附图详细描述各种实施例，其中在几个视图中相同的参考数字表示相同的部件和组件。对各种实施例的引用不限制所附权利要求的范围。此外，本说明书中阐述的任何示例不旨在限制并且仅阐述所附权利要求的许多可能实施例中的一些。

本公开的非限制性示例描述了用于从电子会议中识别相关信息并从该相关信息生成摘要内容的系统、方法和设备。如本文所述，相关信息包括对一个或多个用户重要的信息。因此，与一个用户或一组用户相关的信息可能与另一用户或另一组用户不相关。电子会议概括服务可以接收电子会议的电子会议数据。电子会议数据可以包括来自打开了她的音频/麦克风的电子会议的每个参与者的语音音频数据。电子会议数据还可以包括打开了她的视频/照相机的电子会议的每个参与者的视频数据。电子会议概括服务可以从电子会议数据中识别重要内容，包括关键点、分配的任务、提及的文件和活跃参与者，并基于该识别来生成会议摘要。

电子会议概括服务可以将语音转文本引擎应用于电子会议的音频数据并生成转录。然后可以将一个或多个语言处理模型应用于该转录以识别转录的重要部分。重要性可以与加入会议的用户(例如，参与者)、加入会议的组织用户组(例如，工程师参与者、人力资源参与者、法律参与者)和/或加入会议的个人用户有关。例如，会议的第一部分可以仅对与组织的法律组相关联的用户重要，而会议的第二部分可以仅对与组织的人力资源组相关联的用户重要。由此，可以针对它们与第一一个或多个用户的相关性而识别第一组重要部分，并且针对它们与第二一个或多个用户的相关性而识别第二组重要部分。应用于转录的一个或多个语言处理模型可以包括神经网络、文本嵌入模型和/或关键词和短语匹配模型。电子会议概括服务可以确定电子会议的多个部分的文本重要性分数。每个部分可以由一个或多个话语(例如，单词、短语、句子、字符串、段落等)组成。在附加示例中，这些部分在本质上可以是时间性的。例如，电子会议概括服务可以确定电子会议的每一分钟或每五分钟的文本重要性分数。

一个或多个图像/视频处理模型可以应用于电子会议的视频数据。一个或多个图像/视频处理模型可以包括认知视觉理解机器学习模型。认知视觉理解机器学习模型可以包括神经网络，该神经网络已经被训练以将面部特征和/或用户举止的图像和/或视频数据分类为一个或多个类别。一个或多个类别可以包括：例如，表达兴趣、表达无兴趣、表达快乐和/或表达不快乐。电子会议概括服务可以确定电子会议的多个部分的视觉重要性分数。每个部分可以由一个或多个话语组成。在附加示例中，这些部分在本质上可以是时间性的。例如，电子概括服务可以确定电子会议的每一分钟或每五分钟的视觉重要性分数。视觉重要性分数可以基于认知视觉理解机器学习模型对用户表情和/或举止的分类来计算。当确定电子会议的部分的视觉重要性分数时，也可以将被确定为表达兴趣、无兴趣和/或其他情绪分类的用户的数量、百分比和/或比率考虑在内。

电子会议概括服务可以确定电子会议的一个或多个部分的组合重要性分数。组合重要性分数可以基于部分的文本重要性分数和同一部分的视觉重要性分数。在一些示例中，文本重要性分数或视觉重要性分数可以比另一个加权更多。在一些示例中，可以利用在组织层级中用户的职位来确定电子会议中的话语的重要性。例如，与具有较低职位的用户相比，在组织层级中具有较高职位的用户的话语可以分配有更多的权重。因此，用户在组织中的层级职位可用于确定电子会议的部分的文本重要性分数、电子会议的部分的视觉重要性分数和/或会议的部分的组合重要性分数。

如果确定电子会议的部分的组合重要性分数高于阈值，则可以生成该部分的摘要内容并将其包括在电子会议摘要中。在一些示例中，电子会议的部分的摘要内容可以包括在该部分期间提及的相关文档、在该部分期间分配的任务和/或在该部分中讨论或以其他方式引用的关键点。包括在电子会议摘要中的摘要内容可以基于每个部分的组合重要性分数、以可显示的顺序呈现。例如，与对应于具有较低组合重要性分数的部分的摘要内容相比，具有较高组合重要性分数的部分可以具有更突出地呈现(例如，在上方、突出显示、加粗)的相对应的摘要内容。

可以以电子消息的形式生成电子会议摘要。电子消息可包括摘要内容，其包括已分配任务的指示、已移至不同行动阶段的任务的指示、会议中包含的关键点、会议期间提及的文档和/或哪些参与者在电子会议期间最活跃的指示。

电子会议摘要可以附加地或替代地以视频的形式生成。视频摘要可以从中删除未被确定为重要的部分。在其他示例中，视频摘要可以具有用于跳转到电子会议的重要部分、跳过电子会议的部分、重复电子会议的部分、增强电子会议的部分和/或更正电子会议的部分的可选择元素。

可以基于经由视频记录接收到的用户反馈来修改电子会议摘要，视频记录包括视频摘要、电子会议转录或电子消息摘要。例如，如果用户跳过电子会议的视频记录的部分，则这些部分的组合重要性分数可以降低。类似地，如果用户快速滚动通过(scrollthrough)会议转录的部分，则这些部分的组合重要性分数可以降低。替代地，如果用户选择到电子消息摘要中提及的特定文档的链接，则可以增加该部分/文档的组合重要性分数。经由会议记录、视频摘要、电子会议转录和/或电子消息摘要接收的其他用户反馈可用于生成新的电子会议摘要和/或修改现有的电子会议摘要。

本文描述的系统、方法和设备提供了用于生成电子会议摘要的技术优势。处理成本(例如，CPU周期)经由此处描述的机制减少，这是因为播放会议记录的计算设备不必取回和播放对用户不重要的音频和视频部分。相反，向希望审阅电子会议的用户提供仅包括相关信息的压缩内容。此外，当生成电子会议的会议摘要时，可以减少与存储大型媒体文件相关联的存储器成本。例如，视频摘要可以仅包括电子会议中被识别为感兴趣的部分，而其他部分可以被删除。此外，会议摘要传统上是手动生成的，因此它们包含生成它们的用户的倾向(bias)。替代地，经由此处描述的机制生成的会议摘要是无倾向的，并且可以针对个人和/或个人组进行定制。

图1是图示用于从电子会议生成摘要内容的示例分布式计算环境100的示意图。计算环境100包括电子会议子环境102、网络和处理子环境104、服务存储子环境110、认知语言理解引擎122、认知视觉理解引擎124、内容排名引擎126、动作引擎128和电子会议摘要子环境130。

网络和处理子环境104包括网络106和服务器计算设备108，在本文中描述的任何计算设备可以通过网络106相互通信，服务器计算设备108是可以执行本文描述的与基于云的服务(例如，电子日历应用服务、电子邮件应用服务、文档应用服务、电子会议概括服务等)相关的一个或多个操作的云计算设备的示例。尽管电子会议概括服务在本文中主要被描述为基于云的服务，但是与该服务相关联的一个或多个操作可以在本地执行(例如，在计算设备103上、在计算设备132上)。

服务存储子环境110包括服务存储120，其包含与多个用户账户相关联的信息，包括文档116、用户信息118、过去、现在和未来的日历事件114、与过去、现在和未来的事件相关联的会议/事件邀请112，以及组织层级图119。文档116可以包括在本地存储到诸如计算设备102的本地计算设备和/或一个或多个远程存储位置的生产力应用文档。文档116可以包括一种或多种文档类型的一个或多个文档，包括以下的一种或多种：电子邮件、保存的即时消息、文字处理文档、演示文档、电子表格文档、笔记应用文档等。用户信息118可以包括用户偏好以及与用户面部表情、词汇和韵律语音/语言和/或举止有关的基线信息。组织层级图119可以包括与组织的多个用户相关的信息，包括他们的头衔和组织中彼此相关的层级角色。在一些示例中，组织层级图119还可以包括与用户关于各种类型的主题的专业知识(例如，工程专业知识、法律专业知识、管理专业知识、人力资源专业知识)相关的信息。服务器计算设备108和相关联的电子会议概括服务可以与服务存储120通信并且在执行本文描述的一个或多个操作时获取和分析其中包括的信息。

电子会议概括服务可以接收电子会议数据(例如，来自电子会议的视频数据、来自电子会议的音频数据)，基于对电子会议数据的处理生成电子会议的摘要。该处理可以包括将一个或多个机器学习模型应用于视频数据和/或音频数据以识别电子会议的重要部分和/或内容。该处理还可以包括关键字和/或短语匹配以识别电子会议的重要部分和/或内容。在附加示例中，电子会议概括服务可以识别在电子会议中提及和/或引用的文档并且将那些文档包括在电子会议摘要中。电子会议概括服务可以附加地或替代地识别在电子会议期间分配给用户的一个或多个任务并且将那些任务包括在电子会议摘要中。在一些示例中，电子会议概括服务可以确定一个或多个项目和/或任务已经在电子会议期间从一个完成阶段移动到下一完成阶段。

在该示例中，计算设备103显示具有当前正在进行的电子会议的电子会议应用。电子会议有四个活跃参与者，其中四个参与者中的每个参与者的视频都显示在电子会议应用的单独象限中。当会议仍在进行时，电子会议概括服务可以从电子会议接收电子会议数据(例如，视频数据、音频数据)和/或处理电子会议数据(例如，视频数据、音频数据)，或者电子会议概括服务可以在会议结束后接收和/或处理来自电子会议的电子会议数据。在一些示例中，如果一个或多个会议参与者肯定地允许电子会议概括访问电子会议数据(例如，经由电子会议隐私设置)，则电子会议概括服务可以仅接收和/或处理该电子会议数据。

电子会议概括服务可以分离地处理来自电子会议的每个参与者的电子会议数据。例如，电子会议概括服务可以与从与第二参与者相关联的第二计算设备接收的视频和音频会议数据分离地处理从与第一参与者相关联的第一计算设备接收的视频和音频会议数据。因此，在该示例中，电子会议概括服务可以至少在初始时与来自每个其他参与者的视频和音频会议数据分离地处理来自每个参与者的视频和音频会议数据。在其他示例中，电子会议概括服务可以一起处理从每个设备接收的视频和/或音频会议数据。

一旦接收到，电子会议概括服务就可以确定电子会议数据是否包括视频和/或音频数据。如果参与者的电子会议数据包括音频数据，则它可以由语音转文本引擎处理以生成电子会议的转录。在一些示例中，电子会议概括服务可以同时处理来自每个参与者的全部音频数据以生成整个电子会议的转录。在示例中，可以在转录中参与者在电子会议期间发言的位置处用那些参与者身份来标记针对电子会议生成的转录的文本。电子会议概括服务可以用认知语言理解引擎122处理转录。

认知语言理解引擎122可以包括一个或多个机器学习模型，这些模型已经被训练以从文本计算文本重要性分数。电子会议概括服务可以基于句子、文本字符串和/或转录的部分对会议参与者的重要性而总体地计算文本重要性分数(例如，文本的部分对作为群体的参与者中的每个参与者的重要性是多少)。在其他示例中，电子会议概括服务可以基于句子、文本字符串和/或转录的部分对会议参与者的重要性而个体地计算文本重要性分数(例如，文本的部分对特定参与者的重要性是多少)。一个或多个机器学习模型可以包括循环神经网络。在一些示例中，循环神经网络可以包括长短期记忆(LSTM)神经网络和/或门控循环单元(GRU)神经网络。在另外的示例中，一个或多个机器学习模型可以包括文本嵌入模型(例如，来自变换器的双向编码器表示(BERT)、来自语言模型的嵌入(ELMo))。

如果参与者的电子会议数据包括视频数据，则它可以由认知视觉理解引擎124处理。认知视觉理解引擎124可以包括一个或多个机器学习模型(例如，神经网络)，这些模型已经被训练来根据用户/参与者的视频数据计算视觉重要性和/或兴趣分数。电子会议概括服务可以基于面部特征和/或由会议参与者与当时所说的词相关联地做出的身体动作或举止来计算视觉重要性分数。也就是说，由认知视觉理解引擎124计算的视觉重要性分数可以与会议转录中的文本相匹配，以确定电子会议的哪些部分对参与者和/或一组参与者而言是感兴趣和/或重要的。在一些示例中，可以计算视觉重要性分数以将会议参与者的基线特征考虑在内。例如，会议参与者可以经常点头，因此该参与者点头不一定等同于会议的部分的重要性和/或同意会议的部分。在一些示例中，可以根据多个子视觉重要性分数来计算电子会议的部分的视觉重要性分数，其中每个子视觉重要性分数对应于不同的会议参与者。例如，如果视觉理解引擎124确定高百分比的参与者对电子会议的特定部分表示兴趣(例如，对应于这些用户中的每个用户的高子视觉重要性分数)，则尽管一个或多个会议参与者对该部分没有表示兴趣(例如，对应于这些用户中的每个用户的低子视觉重要性分数)，该部分的视觉重要性分数仍将很高。

电子会议概括服务可以基于部分的文本重要性分数和电子会议的视觉重要性分数来确定电子会议的部分的组合重要性分数。例如，可以将函数应用于电子会议的部分的文本重要性分数和视觉重要性分数，并且可以基于该函数的应用来计算组合重要性分数。在一些示例中，文本重要性分数和视觉重要性分数可以具有相等的权重。在其他示例中，文本重要性分数的权重可以大于或小于视觉重要性分数的权重。在一些示例中，如果电子会议的部分的组合重要性分数超过阈值，则电子会议概括服务可以针对电子会议的该部分生成摘要内容。摘要内容可以包括电子会议数据的该部分的重要性的指示。

在一些示例中，如果电子会议的多于部分具有大于阈值的组合重要性分数，则内容排名引擎126可以基于它们的组合重要性对这些部分中的每个部分进行排名。排名可用于确定如何呈现电子会议的摘要。例如，如果电子会议的第一部分排名高于电子会议的第二部分，但两个部分的组合重要性分数超过阈值，则可以在摘要中比第二部分(或第二部分的摘要)更突出地呈现第一部分(或第一部分的摘要)。

尽管未示出，计算环境100可以另外包括任务识别引擎。任务识别引擎可以包括一个或多个机器学习模型，该模型可以处理电子会议的转录以识别在电子会议期间分配给参与者的一个或多个任务。一个或多个机器学习模型可以包括上下文嵌入模型，如以下关于图7更全面地讨论的。在附加示例中，如果确定在电子会议期间任务被分配给参与者，则任务识别引擎可以对被分配的任务类型进行分类。

动作引擎128可以执行与确定是否期望将与电子会议的一个或多个参与者相关联的一个或多个任务移动到其生命周期中的新的完成阶段相关联的一个或多个操作。在一些示例中，如果确定期望将任务移动到其生命周期中的新阶段，则电子会议概括服务可以自动将该任务移动到新阶段。在其他示例中，如果确定期望将任务移动到其生命周期中的新阶段，则电子会议概括服务可以指示已经在电子会议摘要中做出这样的确定。该指示可以包括可选择的元素，以用于自动将任务移动到其生命周期中的新阶段。

尽管未示出，计算环境100可以包括文档识别引擎。文档识别引擎可以执行与识别与电子会议相关的文档相关联的一个或多个操作。在一些示例中，文档识别引擎可以包括一个或多个机器学习模型，这些模型已经被训练用于处理文本并基于该处理来识别相关文档。一个或多个机器学习模型可以包括上下文嵌入模型，如以下关于图6更全面地讨论的。

在此示例中，电子会议概括服务已确定电子会议的一个或多个部分具有超过阈值的组合重要性分数。电子会议概括服务还确定了在电子会议期间将一项或多项任务分配给了一个或多个用户。电子会议概括服务进一步识别了在电子会议期间提及的和/或被识别为与电子会议相关的一个或多个电子文档。电子会议概括服务因此生成包括那些元素中的每个元素的概要和/或指示的会议摘要。

在该示例中，概要作为电子消息而发送给电子会议的一个或多个参与者。具体地，电子会议概括服务发送包括会议摘要134的电子消息，其显示在电子会议摘要子环境130中的计算设备132上。会议摘要134包括任务分配元素136，其可以包括分配给电子会议参与者的一个或多个任务的指示和/或摘要。会议摘要134还包括关键点元素138，其可以包括来自其中组合重要性分数超过阈值的电子会议的转录的文本内容的一个或多个部分的指示和/或摘要。会议摘要134还包括提及元素140，其可以包括在电子会议期间提及的和/或被识别为与电子会议相关的一个或多个电子文档。根据一些示例，包括在会议摘要134中的元素可以基于它们各自的组合重要性分数被布置在它们的显示中。例如，如果电子会议的第一部分中具有第一关键点，并且该部分的组合重要性分数为X，而电子会议的第二部分具有第二关键点，并且该部分的组合重要性分数为X+1，则第一关键点可以比第二关键点更突出地显示(例如，在上方、以更大的文本、以粗体文本、高亮显示等)。

电子会议概括服务已经确定电子会议的参与者中的每个参与者的参与分数。参与者的参与分数可以对应于参与者在电子会议期间发言、展示和/或活跃的时间量。在另外的示例中，参与者的参与者分数可以对应于参与者的电子会议的转录中的文本量。会议摘要134还包括活跃参与者元素142，其可以包括电子会议期间每个电子会议参与者的参与水平和/或参与量的指示和/或概要。

图2图示了显示电子会议摘要206的文本版本的计算设备202，电子会议摘要206已经经由将机器学习模型应用到电子会议数据而生成。会议摘要206经由电子消息204发送给电子会议的参与者。

会议摘要206包括主题“来自您最近的季度销售报告会议的要点”，以及时间和日期。时间和日期可以对应于电子会议的时间、生成会议摘要206的时间、和/或发送和/或接收包括会议摘要206的电子消息204的时间。时间和日期是“Tue7/12/20203:10PM”。会议摘要206被寻址到与计算设备202相关联的会议参与者。该会议参与者是Mike Smith。会议摘要206指出：“嘿，Mike，这是您错过的最近一次会议的一些重要任务、关键点、文件和活动。在此处阅读完整的转录”。该文本的“在此处阅读完整的转录”此处部分与链接相关联，可选择该链接以下载和/或以其他方式访问电子会议的完整的转录。

会议摘要206包括分配给在电子消息期间接收到电子消息204的用户(MikeSmith)的任务的指示。具体而言，会议摘要206包括任务元素208，其中包括标题“在会议期间分配给您的任务”和描述“Jasmin S，您的CEO，要求您提出进入中国市场的计划，包括成本、时间表和成果(见相关文档)”。

会议摘要206包括在会议中识别的多个关键点的指示。关键点可以对应于其中组合重要性分数被确定为高于阈值的电子会议的部分。具体地，会议摘要206包括关键点元素210，其包括标题“来自会议的关键点”和不同关键点的三个描述。第一关键点的第一描述是“David P对在英国取得的进展感到沮丧”。第二关键点的第二描述是“JohnA建议[群组A]扩大其在东南亚的营销工作”。第三关键点的第三描述是“在审阅美国销售进度时，多个人表现出兴趣”。

会议摘要206包括在电子会议期间提及的多个文档的指示。具体地，会议摘要206包括文档元素210，其包括在电子会议期间提及的第一文档(“Quarterly SalesReport.pptx”)的指示，以及在电子会议期间提及的第二文档(“Quarterly salesdistribution across regions.xlsx”)的指示。在一些示例中，那些文档元素可以是可选择的以用于下载和/或导航到对应的电子文档。

图3图示了用于使用神经网络302处理视频会议数据以确定电子会议的部分的视觉重要性分数的计算环境300。除了神经网络302之外，计算环境300还包括计算设备302、视频数据306B、视频预处理引擎312、点头分数328、摇头分数330、手部移动分数332、面部表情分数334、视觉片段重要性引擎336和视觉片段重要性分数338。

计算设备302显示具有当前正在进行的电子会议的电子会议应用。电子会议有四个活跃参与者，其中四个参与者中的每个参与者的视频都显示在电子会议应用的单独象限中。具体地，左上象限中的第一窗口304显示第一参与者的视频馈送，右上象限中的第二窗口306A显示第二参与者的视频馈送，左下象限中的第三窗口308显示第三参与者的视频馈送，并且右下象限中的第四窗口310显示第四参与者的视频馈送。

电子会议概括服务可以在会议仍在进行时接收和/或处理来自电子会议的电子会议数据(例如，视频数据、音频数据)，或者电子会议概括服务可以在会议结束后接收和/或处理来自电子会议的电子会议数据。在一些示例中，如果一个或多个会议参与者肯定地允许电子会议概括访问电子会议数据(例如，经由电子会议隐私设置)，则电子会议概括服务可以仅接收和/或处理该数据。

在此示例中，电子会议概括服务接收第二参与者的视频数据306B，尽管应当理解，电子会议概括服务可以接收和处理来自其具有视频会议数据的每个参与者的视频。视频数据306B由视频预处理引擎312处理。视频预处理引擎312可以在视频数据306B被提供给神经网络302之前对包括在视频数据306B中的一个或多个图像执行一个或多个预处理操作。一个或多个预处理操作可以包括图像/视频过滤操作和/或图像/视频增强操作。可以执行的预处理操作的示例包括调整图像/视频的大小、去除噪声(例如，使用高斯函数模糊图像)、分割图像/视频、将背景与前景对象分离以及应用自定义过滤器。

一旦对视频数据306B的预处理已经完成，经预处理的数据可以被变换成向量格式并且被提供给神经网络302的第一层。神经网络302的第一层包括神经元314、神经元316和神经元318。神经网络302的第一层随后将其值馈送到神经网络302的第二层，输出层。神经网络302的第二层包括神经元四320、神经元五322、神经元六324和神经元N326。可以将一个或多个激活函数(softmax函数、S形函数)应用于来自神经网络302的第二层的神经元的输出值，并且可以为第二电子会议参与者计算认知特征分数。

一旦将激活函数应用于来自神经元四320的值，就生成点头分数328。点头分数328可以指示会议参与者是否同意会议中所说的或正在呈现的内容。

一旦将激活函数应用于来自神经元五322的值，就生成摇头分数330。摇头分数330可以指示会议参与者是否不同意会议中所说的内容或呈现的内容。

一旦将激活函数应用于来自神经元六324的值，就生成手部移动分数332。手部移动分数332可以指示会议参与者对会议中所说的内容或呈现的内容表达兴趣。

一旦将激活函数应用于来自神经元N326的值，就生成面部表情分数334。面部表情分数334表示一种或多种面部表情类型(例如，困惑、兴奋、感兴趣、同意、不同意等)。面部表情分数334指示会议参与者表达与会议中所说的或呈现的内容相关的一种或多种情绪。

视觉片段重要性评分引擎可以将一个或多个函数应用到视觉认知分数(例如，点头分数328、摇头分数330、手部移动分数332、面部表情分数334)以生成用于电子会议的片段的组合视觉认知分数。第二电子会议参与者的图示视频片段的组合视觉认知分数由视觉片段重要性分数338表示。

图4图示了用于由机器学习模型412处理会议转录以识别重要句子以及由概括引擎426对重要句子进行后续处理的计算环境400。

针对电子会议的多个参与者接收会议语音输入401。语音转文本引擎402然后处理会议语音输入401并产生电子会议的转录，如由转录语音数据403所指示。转录语音数据403然后被提供给机器学习模型412以进行附加处理。

机器学习模型412包括上下文词嵌入层414、不同句子聚合层416、上下文句子聚合层418和句子重要性评分层420。机器学习模型412从转录语音数据403接收句子404。在这个示例中，句子404包括四个句子：句子一405、句子二406、句子三408和句子四410。尽管输入被描述为句子，但应该理解，这些输入可以以替代方式处理和分类(例如，作为字符串，作为话语)。

每个句子404由机器学习模型412处理。上下文词嵌入层414为每个句子404中的每个词生成嵌入。在为每个词生成嵌入时，上下文词嵌入层414可以将上下文模型应用于每个句子404。在示例中，所应用的上下文模型可以是来自变换器(BERT)模型的双向编码器表示。在其他示例中，上下文模型可以是Sent2Vec模型、语言模型嵌入(ELMo)、循环神经网络模型等。

不同句子聚合层416将句子404中每个词的嵌入聚合成每个句子404的不同嵌入。在聚合每个词的嵌入时，不同句子聚合层416可以将神经网络应用于每个词的嵌入。在示例中，神经网络可以包括门控循环单元(GRU)神经网络或双GRU神经网络。在其他示例中，神经网络可以包括长短期记忆(LSTM)神经网络。

上下文句子聚合层418将每个句子404的每个不同嵌入聚合成每个句子404的上下文嵌入。在聚合每个句子的不同嵌入时，上下文句子聚合层418可以将神经网络应用于每个句子404的每个不同嵌入。在示例中，神经网络可以包括门控循环(GRU)神经网络或双GRU神经网络。在其他示例中，神经网络可以包括长短期记忆(LSTM)神经网络。

句子重要性评分层420基于每个句子的重要性对每个句子404进行评分和排名。在一些示例中，句子重要性评分层420可以基于每个句子404对电子会议的每个会议参与者的相对重要性对每个句子404进行评分和排名，使得可以针对每个参与者定制电子会议的摘要。在附加示例中，句子重要性评分层420可以基于每个句子404对不同组织组(例如，人力资源、法律、工程、设备、软件等)的相对重要性而对每个句子404进行评分和排名，使得电子会议的摘要可以针对不同的用户组进行定制。每个句子404的分数由句子分数元素421示出。在对每个句子404进行评分时，句子重要性评分层420可以将分类器函数应用于多个句子中每个句子的每个上下文嵌入(例如，由上下文句子聚合层418生成的嵌入)。在示例中，分类器函数可以包括sigmoid函数。可以使用其他激活函数(例如tanh、softplus等)对每个句子进行评分。在一些示例中，可以使用黄金标记的相关性分数用二元交叉熵损失来训练模型。训练该模型的其他方法可以包括利用基于边缘的铰链损失函数。

根据示例，可以利用阈值来确定要进一步处理哪些句子以供概括引擎426进行概括。例如，可以将经由句子重要性评分层420为每个句子404计算的值与阈值进行比较。如果句子具有满足或超过阈值的值，则该句子可以由概括引擎426处理。如果句子具有不满足或超过阈值的值，则可以不进一步处理该句子。阈值可以手动或自动调整。例如，随着机器学习模型412被训练，阈值可以降低或增加。在此示例中，句子二406*和句子三408*已被确定已满足最小阈值，并且因此它们被发送到概括引擎426以进行处理，如由相关句子422所指示的。

概括引擎426包括实体提取层428、实体分类层430和概括层432。实体提取层428可以识别和/或提取与会议摘要相关的实体。实体分类层430可以按实体类型(例如，分配的任务、关键点、关键点类型、文档、文档主题、活跃参与者)对那些实体进行分类。概括层432可以基于由机器学习模型412和/或概括引擎426执行的处理来生成一个或多个会议摘要或摘要组件。

概括引擎426和其中的层被提供用于说明目的，并且应该理解，更多、更少和/或不同的层可以应用于相关句子422以帮助满足摘要。

图5图示了用于对文本重要性分数、层级重要性分数和多个视觉重要性分数的聚合处理以确定电子会议的会议部分的组合重要性分数的计算环境500。计算环境500包括计算设备502、部分重要性评分引擎512和会议部分A分数526。

计算设备502显示具有当前正在进行的电子会议的电子会议应用。电子会议有四个活跃参与者，四个参与者中每个参与者的视频都显示在电子会议应用的单独象限中。具体地，左上象限中的第一窗口504显示第一参与者(用户A)的视频馈送，右上象限中的第二窗口506显示第二参与者(用户B)的视频馈送，左下象限中的第三窗口508显示第三参与者(用户C)的视频馈送，并且右下象限中的第四窗口510显示第四参与者(用户D)的视频馈送。

电子会议概括服务可以处理来自电子会议的语音音频数据和视频数据。在一些示例中，电子会议概括服务可以将语音转文本引擎应用于语音音频数据并生成电子会议的转录。电子会议概括服务然后可以将认知语言机器学习模型(例如，机器学习模型412)应用于转录以确定电子会议的一个或多个部分的文本重要性分数(例如，基于分配给转录的一个或多个部分的文本重要性分数)。电子会议的部分的文本重要性分数由文本重要性分数514示出。

电子会议概括服务可以将认知视觉理解机器学习模型(例如，神经网络302)应用于具有视频数据的电子会议的每个参与者的视频数据，以确定电子会议的一个或多个部分的视觉重要性分数。在此示例中，用户A和电子会议的第一部分的视觉重要性分数由用户A视觉重要性分数518示出，用户B和电子会议的第一部分的视觉重要性分数由用户B视觉重要性分数520示出，用户C和电子会议的第一部分的视觉重要性分数由用户C视觉重要性分数522示出，用户D和电子会议的第一部分的视觉重要性分数由用户D视觉重要性分数524示出。

在一些示例中，电子会议概括服务可以为电子会议的每个参与者和/或电子会议的一个或多个部分确定层级重要性分数。这通过讲话用户层级重要性分数516来示出。层级重要性分数可以基于组织的层级组织图来确定。在一些示例中，与在层级组织图中较低的用户(例如，用户话语)相比，可以将较高的层级重要性分数分配给在层级组织图中较高的用户(例如，用户话语)。在附加示例中，与不具有与确定的会议主题相关的专业知识的用户(例如，用户话语)相比，可以向具有与确定的会议主题相关的专业知识的用户(例如，用户话语)分配比更高的层级重要性分数。

电子概括服务可以将一个或多个函数应用于电子会议的一个或多个部分的文本重要性分数514、讲话用户层级重要性分数516、用户A视觉重要性分数518、用户B视觉重要性分数520、用户C视觉重要性分数522、和/或用户D视觉重要性分数524，并确定电子会议的那些一个或多个部分的组合重要性分数。电子会议的部分的组合重要性分数由会议部分A分数526说明。

图6是示出可用于识别在电子会议中已被引用的重要文档的示例性机器学习模型604的框图600。

针对电子会议的多个参与者接收会议语音输入601。语音转文本引擎602然后处理会议语音输入601并产生电子会议的转录，如由转录语音数据603所指示。转录语音数据603然后被提供给机器学习模型604以进行额外处理。

在机器学习模型604中，转录语音数据603首先由字符串提取层610处理。字符串提取层610可以应用一个或多个规则来识别和标记来自转录语音数据603的各个字符串以供进一步处理。例如，第一规则可以规定任何完整的句子(例如，以标点符号结尾)被标记为字符串。第二规则可以规定任何长度超过X的单词集都被标记为单独的字符串。

从字符串提取层610，字符串被传递到字符串嵌入层612。字符串嵌入层612包括语言嵌入模型。语言嵌入模型为每个字符串创建嵌入。语言嵌入模型可以包括上下文嵌入模型(例如，BERT模型、ELMo模型、循环神经网络模型、长短期记忆(LSTM)模型、门控循环单元(GRU)模型)。在一些示例中，字符串嵌入层612可以将来自转录的一个或多个字符串的嵌入组合成转录的部分的部分嵌入，或者将转录的所有字符串的嵌入组合成转录的整体嵌入。

在字符串嵌入层612处生成的嵌入可被传递到嵌入压缩层614。嵌入压缩层614可以包括用于将由字符串嵌入层612针对字符串生成的连续嵌入转换成二进制形式的模型。例如，嵌入压缩层614可以包括以下一项或多项：使用硬阈值模型的直接二值化、使用随机投影或主成分分析模型降低维数，和/或具有附加语义保留损失模型的编码解码框架。

每个字符串的压缩(二进制)嵌入(或转录的部分或整个转录的嵌入)由压缩嵌入元素616表示。字符串的嵌入(或转录的部分或整个转录的嵌入)以压缩或未压缩的形式表示为相似度分数层605中的字符串嵌入617。嵌入被合并到嵌入库中，该嵌入库由用于其他文档的多个语言嵌入组成(例如，文档A嵌入618，文档N嵌入620)。相似性分数可以经由将相似性分数模型应用于来自新嵌入字符串的新嵌入，以及来自嵌入库的一个或多个嵌入(例如，文档A嵌入618，文档N嵌入620)来计算。在一些示例中，相似性分数模型可以是余弦模型。在其他示例中，相似性分数模型可以是汉明(Hamming)模型。在这个示例中，这由相似性分数层605示出。

可以计算每个嵌入字符串(或针对转录部分嵌入或作为整体的转录的嵌入)和文档A嵌入618的嵌入之间的相似性分数。评分和计算由嵌入评分层622示出。因此，可以为包括在转录语音数据603和文档A嵌入618中的一个或多个字符串计算相似性分数，例如文档A相似性分数624。

还可以计算每个嵌入字符串(或针对转录部分嵌入或作为整体的转录的嵌入)和文档N嵌入620的嵌入之间的相似性分数。评分和计算由嵌入评分层622示出。因此，可以为包括在转录语音数据603和文档N嵌入620中的一个或多个字符串计算相似性分数，例如文档N相似性分数625。

相关文档627可以对应于来自相似性分数层605的一个或多个分数最高的文档。可以使相关文档627或到相关文档627的链接呈现于会议摘要中。在一些示例中，相关文档627或到相关文档627的链接可以仅在该文档的相似性分数(例如，文档A相似性分数624、文档N相似性分数625)高于阈值的情况下才呈现于会议摘要中。

图7是示出可用于识别已在电子会议中分配给用户的任务的示例性机器学习模型704的框图700。

针对电子会议的多个参与者接收会议语音输入701。语音转文本引擎702然后处理会议语音输入701并产生电子会议的转录，如转录语音数据703所示。转录语音数据703然后被提供给机器学习模型704以进行额外处理。

在机器学习模型704中，转录语音数据703首先由字符串提取层710处理。字符串提取层710可以应用一个或多个规则来识别和标记来自转录语音数据703的各个字符串以供进一步处理。例如，第一规则可以规定任何完整的句子(例如，以标点符号结尾)被标记为字符串。第二规则可以规定任何长度超过X的单词集都被标记为单独的字符串。

从字符串提取层710，字符串被传递到字符串嵌入层712。字符串嵌入层712包括语言嵌入模型。语言嵌入模型为每个字符串创建嵌入。语言嵌入模型可以包括上下文嵌入模型(例如，BERT模型、ELMo模型、循环神经网络模型、长短期记忆(LSTM)模型、门控循环单元(GRU)模型)。在一些示例中，字符串嵌入层712可以将来自转录的一个或多个字符串的嵌入组合成转录部分的部分嵌入，或者将转录的所有字符串的嵌入组合成转录的整体嵌入。

在字符串嵌入层712处生成的嵌入可被传递到嵌入压缩层714。嵌入压缩层714可包括用于将由字符串嵌入层712为字符串生成的连续嵌入转换成二进制形式的模型。例如，嵌入压缩层714可以包括以下一项或多项：使用硬阈值模型的直接二值化，使用随机投影或主成分分析模型降低维度，和/或具有附加语义保留损失模型的编码解码框架。

每个字符串的压缩(二进制)嵌入(或转录的部分或整个转录的嵌入)由压缩嵌入元素716表示。字符串的嵌入(或转录的部分或整个转录的嵌入)以压缩或未压缩的形式表示为相似性分数层705中的字符串嵌入717。嵌入被合并入嵌入库中，该嵌入库由用于任务意图类型的多个语言嵌入组成(例如，任务意图A嵌入718、任务意图B嵌入720)。相似性分数可以经由将相似性分数模型应用于来自新嵌入字符串的新嵌入以及来自嵌入库的一个或多个嵌入(例如，任务意图A嵌入718，任务意图B嵌入720)来计算。在一些示例中，相似性分数模型可以是余弦模型。在其他示例中，相似性分数模型可以是汉明模型。在这个示例中，这由相似性分数层705说明。

可以计算每个嵌入字符串(或转录部分嵌入或整个转录的嵌入)和任务意图A嵌入718的嵌入之间的相似性分数。评分和计算由嵌入评分层722示出。因此，可以为包括在转录语音数据703和任务意图A嵌入718中的一个或多个字符串计算相似性分数，例如任务意图A相似性分数724。

还可以计算每个嵌入字符串(或转录部分嵌入或整个转录的嵌入)和任务意图B嵌入720的嵌入之间的相似性分数。评分和计算由嵌入评分层722示出。因此，可以为包括在转录语音数据703和任务意图B嵌入720中的一个或多个字符串计算相似性分数，例如任务意图B相似性分数725。

相关任务727可以对应于来自相似性分数层705的一个或多个分数最高的任务。可以使相关任务727的标识或与相关任务727相关的上下文信息呈现于会议摘要中。在一些示例中，相关任务727或与相关任务727相关的上下文信息可以仅在该任务的相似性分数(例如，任务意图A相似性分数724，任务意图B相似性分数725)高于阈值的情况下呈现于电子会议的会议摘要中。

图8图示了显示电子会议摘要804的视频版本的计算设备802，该电子会议摘要804是通过将机器学习模型应用到电子会议数据而生成的。

电子会议摘要804包括第一标签806、第二标签808和第三标签810。第一标签806应用于从开始部分时间5:22到结束部分时间6:22的电子会议记录的第一部分。第二标签808被应用于从开始部分时间23:04到结束部分时间26:08的电子会议记录的第二部分。第三标签810应用于从开始部分时间31:18到结束部分时间34:12的电子会议记录的第三部分。已经应用于电子会议摘要804的每个标签代表电子会议的已确定组合重要性分数高于阈值的部分。在一些示例中，在生成电子会议摘要的视频版本时，电子会议概括服务可以移除电子会议的未被确定为具有高于阈值的组合重要性分数的部分。在其他示例中，在生成电子会议摘要的视频版本时，电子会议概括服务可以区分(例如，视觉上、听觉上)电子会议的被确定具有高于阈值的组合重要性分数的部分与电子会议的被确定具有低于阈值的组合重要性分数的部分。

电子会议摘要的视频版本可以具有与电子会议的被确定为具有高于阈值的组合重要性分数的部分相关联的增强特征。例如，电子会议摘要的视频版本可能具有“跳转到”导航，允许用户向前或向后跳转到记录中被确定具有高于阈值的组合重要性分数的部分。在另外的示例中，电子会议概括服务可以将相关文档或任务与电子会议摘要的视频版本的被确定为具有高于阈值的组合重要性分数的部分相关联。

图9是用于从电子会议生成摘要内容的示例性方法900。方法900开始于开始操作并且流程移动到操作902。

在操作902处，接收电子会议数据。电子会议数据可以包括来自多个用户的语音数据和多个用户的视频数据。电子会议数据可以由电子会议概括服务接收。电子会议数据对应于可包括多个用户的电子会议。视频数据可以包括来自在电子会议期间打开了她的视频的每个用户的视频数据。语音数据可以包括来自在电子会议期间打开了她的音频的每个用户的音频数据。

流程从操作902继续到操作904，在操作904中，将语言机器学习模型应用于语音音频数据的转录。语言机器学习模型可以是认知模型。语言机器学习模型可以已经被训练以根据文本计算文本重要性分数。语言机器学习模型通常可以基于句子、文本字符串和/或转录部分对会议参与者的重要性(例如，文本的一部分对作为群组的会议参与者中的每个参与者的重要性是多少)来计算文本重要性分数。在其他示例中，机器学习模型可以基于句子、文本字符串和/或转录部分对单独的会议参与者或作为单独的用户组的会议参与者的重要性来计算文本重要性分数(例如，文本的一部分对特定参与者的重要性是什么，文本的一部分对特定参与者组的重要性是什么)。语言机器学习模型可以包括循环神经网络。在一些示例中，循环神经网络可以包括LSTM神经网络和/或GRU神经网络。在附加示例中，一个或多个机器学习模型可以包括文本嵌入模型(例如，BERT、ELMo)。

流程从操作904继续到操作906，在操作906中，基于将语言机器学习模型对转录的应用来确定与电子会议数据的第一部分相对应的转录的第一部分的第一文本重要性分数。如上所述，可以针对单个参与者(例如，对特定参与者的重要性)、作为整体的会议组(例如，对每个参与者的重要性)和/或特定参与者组(例如，对人力资源参与者的重要性、对法律参与者的重要性、对工程师参与者的重要性)来确定第一文本重要性分数。

流程从操作906继续到操作908，在操作908中，将视觉理解模型应用于视频数据。视觉理解模型可以是认知视觉理解模型。视觉理解模型可以包括一个或多个神经网络，这些神经网络已经被训练以从用户/参与者的视频数据计算视觉重要性和/或兴趣分数。

流程从操作908继续到操作910，在操作910中，基于将视觉理解机器学习模型对视频数据的应用来确定与电子会议数据的第一部分相对应的视频数据的第一部分的第一视觉重要性分数。电子会议概括服务可以基于面部特征和/或会议参与者在电子会议期间做出的物理动作或举止来确定视觉重要性分数。在一些示例中，第一视觉重要性分数可以考虑一个或多个会议参与者的基线特征。

流程从操作910继续到操作912，在操作912中，基于第一文本重要性分数和第一视觉重要性分数来确定电子会议数据的第一部分的第一组合重要性分数。第一组合重要性分数可以高于阈值。

流程从操作912继续到操作914，在操作914中，生成电子会议数据的摘要内容。摘要内容可以包括电子会议数据的第一部分的重要性的指示。在示例中，摘要内容可以包括与被确定为具有高于阈值的组合重要性分数的电子会议的每个部分相关的信息。摘要内容可以包括在电子会议期间分配的任务、在电子会议期间讨论的关键点、在电子会议期间提及的文档和/或在电子会议期间哪些参与者活跃或最活跃的指示。

流程从操作914移动到结束操作并且方法900结束。

图10和图11图示了可以用其实践本公开的实施例的移动计算设备1000，例如移动电话、智能电话、可穿戴计算机(例如智能眼镜)、平板计算机、电子阅读器、膝上型计算机或其他AR兼容计算设备。参考图10，示出了用于实现这些方面的移动计算设备1000的一个方面。在基本配置中，移动计算设备1000是具有输入元件和输出元件的手持式计算机。移动计算设备1000通常包括显示器1005和允许用户将信息输入移动计算设备1000的一个或多个输入按钮1010。移动计算设备1000的显示器1005还可以用作输入设备(例如，触摸屏显示器)。如果包括的话，可选的侧输入元件1015允许进一步的用户输入。侧输入元件1015可以是旋转开关、按钮或任何其他类型的手动输入元件。在替代方面，移动计算设备1000可以并入更多或更少的输入元件。例如，在一些实施例中显示器1005可以不是触摸屏。在又一个替代实施例中，移动计算设备1000是便携式电话系统，例如蜂窝电话。移动计算设备1000还可以包括可选的小键盘1035。可选的小键盘1035可以是物理小键盘或在触摸屏显示器上生成的“软”小键盘。在各种实施例中，输出元件包括用于显示图形用户界面(GUI)的显示器1005、视觉指示器1020(例如，发光二极管)和/或音频换能器1025(例如，扬声器)。在一些方面，移动计算设备1000并入了用于向用户提供触觉反馈的振动换能器。在又一方面，移动计算设备1000合并了输入和/或输出端口，例如音频输入(例如，麦克风插孔)、音频输出(例如，耳机插孔)和视频输出(例如，HDMI端口)，用于向外部设备发送信号或从外部设备接收信号。

图11是说明移动计算设备的一方面的体系结构的框图。也就是说，移动计算设备1100可以结合系统(例如，体系结构)1102来实现一些方面。在一个实施例中，系统1102被实现为能够运行一个或多个应用程序(例如，浏览器、电子邮件、日历、联系人管理器、消息传递客户端、游戏和媒体客户端/播放器)的“智能手机”。在一些方面，系统1102被集成为计算设备，例如集成个人数字助理(PDA)和无线电话。

一个或多个应用程序1166可以被加载到存储器1162中并且在操作系统1164上运行或与操作系统1164相关联地运行。应用程序的示例包括电话拨号程序、电子邮件程序、个人信息管理(PIM)程序、文字处理程序、电子表格程序、因特网浏览器程序、消息传递程序等。系统1102还包括存储器1162内的非易失性存储区域1168。非易失性存储区域1168可用于存储在系统1102断电时不应丢失的持久信息。应用程序1166可以在非易失性存储区域1168中使用和存储信息，例如电子邮件或电子邮件应用程序使用的其他消息等。同步应用(未显示)也驻留在系统1102上，并被编程为与驻留在主计算机上的相应同步应用程序交互，以保持存储在非易失性存储区域1168中的信息与存储在主计算机上的相应信息同步。应当意识到，其他应用程序可以加载到存储器1162中并在移动计算设备1100上运行，包括用于提供和操作数字助理计算平台的指令。

系统1102具有电源1170，其可以实现为一个或多个电池。电源1170还可以包括外部电源，例如对电池进行补充或充电的AC适配器或供电的对接座。

系统1102还可以包括无线电接口层1172，其执行发送和接收射频通信的功能。无线电接口层1172通过通信运营商或服务提供者促进系统702和“外界”之间的无线连接。往来于无线电接口层1172的传输在操作系统1164的控制下进行。换句话说，无线电接口层772接收的通信可以通过操作系统1164传播到应用程序1166，反之亦然。

视觉指示器1020可用于提供视觉通知，和/或音频接口1174可用于经由音频换能器1025产生听觉通知。在所示配置中，视觉指示器1020是发光二极管(LED)，音频换能器1025是扬声器。这些设备可以直接耦合到电源1170，使得当被激活时，它们在通知机制规定的持续时间内保持开启，即使处理器1160和其他组件可能关闭以节省电池电量。LED可以被编程为无限期地保持开启，直到用户采取行动来指示设备的通电状态。音频接口1174用于向用户提供可听信号并从用户接收可听信号。例如，除了耦合到音频换能器1025之外，音频接口1174还可以耦合到麦克风以接收可听输入，例如以促进电话交谈。根据本公开的实施例，麦克风还可以用作音频传感器以促进通知的控制，如下文所述。系统1102还可以包括视频接口1176，其使得车载相机1130能够操作以记录静止图像、视频流等。

实现系统1102的移动计算设备1100可以具有附加的特征或功能。例如，移动计算设备1100还可以包括额外的数据存储设备(可移动和/或不可移动)，例如磁盘、光盘或磁带。这种附加存储在图11中由非易失性存储区域1168示出。

如上所述，由移动计算设备1100生成或捕获并通过系统1102存储的数据/信息可以本地存储在移动计算设备1100上，或者数据可以存储在任何数量的存储介质上，由设备通过无线电接口层1172或通过移动计算设备1100和与移动计算设备1100相关联的单独计算设备，例如分布式计算网络(例如因特网)中的服务器计算机之间的有线连接来访问。应当意识到，可以通过移动计算设备1100经由无线电接口层1172或经由分布式计算网络来访问这样的数据/信息。类似地，根据包括电子邮件和协作数据/信息共享系统的众所周知的数据/信息传输和存储手段，这样的数据/信息可以容易地在计算设备之间传输以进行存储和使用。

图12是说明可用来实践本发明的方面的计算设备1200的物理组件(例如，硬件)的框图。下面描述的计算设备组件可以具有计算机可执行指令，用于识别电子会议的重要部分和其中提及的内容，并生成电子会议摘要。在基本配置中，计算设备1200可以包括至少一个处理单元1202和系统存储器1204。根据计算设备的配置和类型，系统存储器1204可以包括但不限于易失性存储(例如，随机存取存储器)、非易失性存储(例如只读存储器)、闪存或此类存储器的任意组合。系统存储器1204可以包括适用于运行一个或多个电子日历应用和生产力应用的操作系统1205。例如，操作系统1205可以适合于控制计算设备1200的操作。此外，本公开的实施例可以结合图形库、其他操作系统或任何其他应用程序来实践并且不限于任何特定的应用或系统。图12中由虚线1208内的那些组件说明了这种基本配置。计算设备1200可以具有额外的特征或功能性。例如，计算设备1200还可以包括附加数据存储设备(可移动和/或不可移动)，例如磁盘、光盘或磁带。这种额外的存储在图12中由可移动存储设备1209和不可移动存储设备1210说明。

如上所述，许多程序模块和数据文件可以存储在系统存储器1204中。当在处理单元1202上执行时，程序模块1206(例如，电子会议概括应用1220)可以执行的过程包括，但不限于本文所述的方面。例如，视觉理解引擎1211可以执行与使用机器学习模型处理来自电子会议的视频数据相关联的一个或多个操作，该机器学习模型已经被训练以对面部特征和用户举止进行分类以将用户图像分类为一个或多个类别(例如，感兴趣、不感兴趣、同意、不同意)。语言理解引擎1213可以执行与使用机器学习模型处理来自电子会议的文本数据相关联的一个或多个操作，该机器学习模型已经被训练以识别分配给会议参与者的关键点、文档和/或任务。部分重要性评分引擎1215可以执行与基于电子会议部分的文本重要性分数和视觉重要性分数来确定组合重要性分数相关联的一个或多个操作。内容排名引擎1217可以执行与基于组合重要性分数在电子会议摘要中安排内容相关联的一个或多个操作。

此外，本公开的实施例可以在包括分立电子元件的电路、包含逻辑门的封装或集成电子芯片、利用微处理器的电路、或在包含电子元件或微处理器的单个芯片上实施。例如，本公开的实施例可以通过片上系统(SOC)来实践，其中图12中所示的每个或许多组件可以集成到单个集成电路上。这样的SOC器件可以包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元和各种应用功能，所有这些都作为单个集成电路集成(或“烧录”)到芯片基板上。当通过SOC操作时，本文描述的关于客户端切换协议的能力的功能可以通过与计算设备1200的其他组件集成在单个集成电路(芯片)上的应用特定逻辑来操作。本公开的实施例也可以使用能够执行逻辑运算的其他技术来实践，例如与(AND)、或(OR)和非(NOT)，包括但不限于机械、光学、流体和量子技术。此外，本公开的实施例可以在通用计算机或任何其他电路或系统中实施。

计算设备1200还可以具有一个或多个输入设备1212，例如键盘、鼠标、笔、声音或语音输入设备、触摸或滑动输入设备等。输出设备1214例如显示器、扬声器、打印机等也可以被包括在内。上述设备是示例并且可以使用其他设备。计算设备1200可以包括一个或多个允许与其他计算设备1250通信的通信连接1216。通信连接1216的合适的示例包括但不限于射频(RF)发射器、接收器和/或收发器电路；通用串行总线(USB)、并行和/或串行端口。

如所使用的术语计算机可读介质可以包括计算机存储介质。计算机存储介质可以包括以用于存储诸如计算机可读指令、数据结构或程序模块的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。系统存储器1204、可移动存储设备1209和不可移动存储设备1210都是计算机存储介质示例(例如，存储器存储)。计算机存储介质可能包括RAM、ROM、电可擦除只读存储器(EEPROM)、闪存或其他存储器技术、CD-ROM、数字多功能磁盘(DVD)或其他光学存储、磁盒、磁带、磁盘存储或其他磁存储设备，或可用于存储信息且可由计算设备1200访问的任何其他制造物品。任何此类计算机存储介质可以是计算设备1200的一部分。计算机存储介质不包括载波或其他传播或调制的数据信号。类似地，计算机存储设备不包括载波或其他传播或调制的数据信号。

通信介质可以由计算机可读指令、数据结构、程序模块或调制数据信号中的其他数据来体现，例如载波或其他传输机制，并且包括任何信息传递介质。术语“调制数据信号”可以描述具有以编码信号中的信息的方式设置或改变的一个或多个功能的信号。作为示例而非限制，通信介质可以包括有线介质，例如有线网络或直接有线连接，以及无线介质，例如声学、射频(RF)、红外线和其他无线介质。

图13图示了用于处理在计算系统处从远程源接收的数据的系统的体系结构的一个方面，远程源诸如个人/通用计算机1304、平板计算设备1306或移动计算设备1308，如上所述。在服务器设备1302处显示的内容可以存储在不同的通信信道或其他存储类型中。例如，可以使用目录服务1322、门户网站1324、邮箱服务1326、即时消息存储1328或社交网站1330来存储各种文档。程序模块1206可以由与服务器设备1302通信的客户端采用，和/或程序模块1206可以由服务器设备1302采用。服务器设备1302可以通过网络1315向和从诸如个人/通用计算机1304、平板计算设备1306和/或移动计算设备1308(例如，智能电话)提供数据。举例来说，本文描述的计算机系统可以体现在个人/通用计算机1304、平板计算设备1306和/或移动计算设备中1308(例如智能手机)。计算设备的这些实施例中的任何一个都可以从存储装置1316获得内容，此外还接收可用于在图形起源系统处进行预处理或者在接收计算系统处进行后处理的图形数据。

例如，本公开的方面是参考根据本公开的方面的方法、系统和计算机程序产品的框图和/或操作说明在上面描述的。块中注明的功能/动作可能会按照任何流程图中所示的顺序发生。例如，连续显示的两个块实际上可以基本上同时执行，或者这些块有时可以以相反的顺序执行，这取决于所涉及的功能/动作。

本申请中提供的一个或多个方面的描述和说明不旨在以任何方式限制或制约所要求保护的本公开的范围。本申请中提供的方面、示例和细节被认为足以传达所有权并使其他人能够做出和使用要求保护的公开的最佳模式。要求保护的公开不应被解释为限于在本申请中提供的任何方面、示例或细节。不管是组合地还是分开地示出和描述，旨在选择性地包括或省略各种特征(结构和方法)以产生具有特定特征集的实施例。已经提供了本公开的描述和图示，本领域技术人员可以设想落入本申请中体现的一般发明概念的更广泛方面的精神内的变化、修改和替代方面，这些不背离要求保护的公开内容的更广范围。

上述各种实施例仅以说明的方式提供，不应被解释为限制所附权利要求。本领域的技术人员将容易地认识到在不遵循本文所示出和描述的示例性实施例和应用并且不脱离所附权利要求的真实精神和范围的情况下可以进行的各种修改和改变。

Claims

1.一种用于从电子会议生成摘要内容的计算机实现的方法，所述计算机实现的方法包括：

接收电子会议数据，所述电子会议数据包括：

来自多个用户的语音音频数据，以及

所述多个用户的视频数据，

将语言机器学习模型应用于所述语音音频数据的转录；

基于将所述语言机器学习模型对所述转录的应用，确定与所述电子会议数据的第一部分相对应的、所述转录的第一部分的第一文本重要性分数；

将视觉理解机器学习模型应用于所述视频数据；

基于将所述视觉理解机器学习模型对所述视频数据的应用，确定与所述电子会议数据的所述第一部分相对应的、所述视频数据的第一部分的第一视觉重要性分数；

基于所述第一文本重要性分数和所述第一视觉重要性分数，确定所述电子会议数据的所述第一部分的第一组合重要性分数，其中，所述第一组合重要性分数高于阈值；以及

生成所述电子会议数据的摘要内容，所述摘要内容包括所述电子会议数据的所述第一部分的重要性的指示。

2.如权利要求1所述的计算机实现的方法，还包括：

向所述多个用户中的一个用户发送包括所述摘要内容的电子消息。

3.如权利要求2所述的计算机实现的方法，还包括：

将任务识别语言模型应用于所述语音音频数据的所述转录；以及

基于所述任务识别语言模型的应用，识别分配给所述多个用户中的一个用户的任务；

并且其中，所述摘要内容还包括所述任务被分配给所述多个用户中的一个用户的指示。

4.如权利要求1所述的计算机实现的方法，还包括：

从所述电子会议数据中识别对电子文档的引用；

并且其中，所述摘要内容还包括所述电子文档的标识。

5.如权利要求1所述的计算机实现的方法，其中，所述电子会议数据的所述摘要内容包括视频。

6.如权利要求1所述的计算机实现的方法，还包括：

识别与在所述电子会议数据的所述第一部分中发言的用户相对应的用户账户；

识别所述第一用户账户的层级组织级别；以及

基于所述第一用户账户的层级组织级别来确定所述电子会议数据的所述第一部分的层级分数。

7.如权利要求6所述的计算机实现的方法，其中，确定所述电子会议数据的所述第一部分的所述第一组合重要性分数进一步基于针对所述电子会议数据的所述第一部分确定的所述层级分数。

8.如权利要求6所述的计算机实现的方法，其中，识别与在所述电子会议数据的所述第一部分中发言的用户相对应的用户账户包括以下至少一项：

将已经被训练为基于面部图像数据识别用户的神经网络应用于所述视频数据；

分析计算设备的账户信息，所述用户账户从所述计算设备加入与所述电子会议数据相对应的电子会议；以及

将已经被训练为基于语音数据识别用户的神经网络应用于所述语音音频数据。

9.如权利要求1所述的计算机实现的方法，其中，将所述视觉理解机器学习模型应用于所述视频数据包括：

将所述视觉理解机器学习模型应用于所述多个用户的视频数据中的、从与所述多个用户中的第一用户相关联的第一计算设备接收的第一视频数据；

将所述视觉理解机器学习模型应用于所述多个用户的视频数据中的、从与所述多个用户中的第二用户相关联的第二计算设备接收的第二视频数据。

10.如权利要求9所述的计算机实现的方法，还包括：

基于将所述视觉理解机器学习模型对从所述第一计算设备接收的所述第一视频数据的应用，确定所述多个用户中的所述第一用户和所述视频数据的所述第一部分的第一子视觉重要性分数；以及

基于将所述视觉理解机器学习模型对从所述第二计算设备接收的所述第二视频数据的应用，确定所述多个用户中的所述第二用户和所述视频数据的所述第一部分的第二子视觉重要性分数。

11.如权利要求10所述的计算机实现的方法，还包括：

确定所述多个用户中的所述第一用户的第一情绪状态图像基线；

基于所述第一情绪状态图像基线，修改所述第一子视觉重要性分数；

确定所述多个用户中的所述第二用户的第二情绪状态图像基线；以及

基于所述第二情绪状态图像基线，修改所述第二子视觉重要性分数。

12.如权利要求1所述的计算机实现的方法，其中，生成所述语音音频数据的所述转录包括将语音转文本机器学习模型应用于所述语音音频数据。

13.如权利要求1所述的计算机实现的方法，还包括：

确定所述多个用户的阈值与第一组织群组类型相关联；

从多个语言机器学习模型中选择用于处理所述语音音频数据的所述转录的所述语言机器学习模型，其中：

所述多个语言机器学习模型中的每个语言机器学习模型已经被训练为确定不同组织群组类型的文本重要性分数，并且

所述语言机器学习模型已经被训练为确定所述第一群组类型的文本重要性分数。

14.一种用于从电子会议生成摘要内容的系统，其包括：

存储器，其用于存储可执行程序代码；以及

处理器，其在功能上耦合到所述存储器，所述处理器响应于包含在所述程序代码中的计算机可执行指令并操作以：

接收电子会议数据，所述电子会议数据包括：

来自多个用户的语音音频数据，以及

所述多个用户的视频数据，

将语言机器学习模型应用于所述语音音频数据的转录；

将视觉理解机器学习模型应用于所述视频数据；

15.一种计算机可读存储设备，其包括可执行指令，当所述可执行指令由处理器执行时，辅助从电子会议生成摘要内容，所述计算机可读存储设备包括能够由所述处理器执行的指令，用于：

接收电子会议数据，所述电子会议数据包括：

来自多个用户的语音音频数据，以及

所述多个用户的视频数据，

将语言机器学习模型应用于所述语音音频数据的转录；

将视觉理解机器学习模型应用于所述视频数据；