CN112463104A

CN112463104A - 具有会议功能的自动助理

Info

Publication number: CN112463104A
Application number: CN202011124441.4A
Authority: CN
Inventors: 马尔钦·诺瓦克-普日戈兹基; 扬·拉梅基; 贝沙德·贝扎迪
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-11-02
Filing date: 2018-10-30
Publication date: 2021-03-09
Also published as: EP3624396A1; WO2019089551A1; EP3497883B1; CN110741601B; US11470022B2; KR102332477B1; US20230013581A1; US20190132265A1; CN110741601A; US10645035B2; KR102461920B1; KR102580322B1; EP3497883A1; JP2021012384A; JP7032504B2; JP2022079458A; JP2020527740A; JP7443407B2; JP6776462B2; KR20210148380A

Abstract

本公开涉及具有会议功能的自动助理，尤其是使得自动助理进入到“会议模式”中“参与”多个人类参与者之间的会议。在各种实施方式中，至少部分地在一个或多个会议计算设备上实现的自动助理可以被设定成会议模式，在会议模式中，所述自动助理对由多个会议参与者提供的多个不同的口头话语执行语音到文本处理，而无需在每个话语之前都明确调用所述自动助理。所述自动助理可对从一个或多个口头话语的所述语音到文本处理生成的第一文本执行语义处理，并且基于所述语义处理生成与所述第一文本有关的数据。所述数据在一个或多个会议计算设备处被输出给所述参与者。之后，所述自动助理可以确定所述会议已经结束，并且可被设定成非会议模式。

Description

具有会议功能的自动助理

分案说明

本申请属于申请日为2018年10月30日的中国发明专利申请201880039481.3的分案申请。

技术领域

本公开涉及具有会议功能的自动助理。

背景技术

人们可以使用本文称为“自动助理”(也称为“聊天机器人”、“交互式个人助理”、“智能个人助理”、“个人语音助理”、“会话代理”等)的交互式软件应用程序参与人机对话。例如，人类(当他们与自动助理交互时，可以称为“用户”，或者在会议的背景下可以称为“参与者”)可以使用自由形式的自然语言输入，和/或通过键入的自由形式的自然语言输入提供命令、查询和/或请求(在本文中统称为“查询”)，该自由形式的自然语言输入可以是被转换成文本然后被处理的口头话语。通常使用预定的口头话语(例如“OK Assistant(好的，助理)”)来调用自动助理，并且通常仅对立即跟随一个调用短语的那些口头话语执行各种类型的处理，诸如语音到文本处理、自然语言处理和/或语义处理。

在涉及多个人类参与者的会议期间，经常有主动或被动参与者，有时也称为“秘书”，秘书记下关于会议的笔记并共享这些笔记(例如，作为“行动项目”和/或“讨论的主题”的纪要)。另外或替代地，一个或多个会议参与者可能在会议期间记录他们自己的笔记。无论哪种情况，在记录时，都可能存在会议期间讨论的某些信息丢失的情况。尽管能够邀请速记员来生成会议的完整或尽可能完整的文本文字记录，但速记法对于日常会议或非正式会议可能是很昂贵的和/或不切实际的。

在会议期间，参与者也常常操作计算设备以利用信息扩大会议。在某些情况下，一个或多个参与者可以用投影或以其它方式呈现一系列幻灯片来引导讨论。作为另一个示例，当有人提出问题时(“what flights are cheapest(最便宜的航班是什么)？”、“whatwill the weather be like when we're there(我们到那里时天气如何)？”，“what seatsare available(有什么座位)？”等)，一个或多个参与者可以手动操作诸如他们的移动电话的计算设备以执行因特网搜索，从而寻找他们之后能够传达给该组的响应信息。这些搜索可能会中断会议的流程和/或导致搜索参与者在执行他们的研究时错过讨论。

发明内容

本文中描述了用于使自动助理能够进入到“会议模式”中的技术，在会议模式下，这些自动助理能够“参与”多个人类参与者之间的会议并执行本文所述的各种功能。在各种实施方式中，配置有本公开的所选方面的自动助理可以至少部分地在本文中称为“会议计算设备”的设备上进行操作。会议计算设备可以是能够执行自动助理的全部或部分并能够使用一个或多个输入/输出组件(诸如扬声器、显示器，尤其是麦克风)参与多个人类参与者之间的会议的任何计算设备。多种计算设备可能特别适合用作会议计算设备，诸如独立的交互式扬声器、视频会议计算系统、车辆计算系统等。然而，具有麦克风和至少一个输出组件(例如，音频或视频)的任何计算设备都可以被用作会议计算设备。本文中使用的术语“会议”可以指两个或多个人类参与者之间的任何口头对话，并且并不暗示那些参与者之间的交互具有商业或行政目的。

配置有本公开的所选方面的自动助理可以例如在多参与者会议开始时被设定成会议模式。在各种实施方式中，可以基于日历条目和/或响应于会议模式的明确调用来检测会议的开始。在会议期间，自动助理可以对多个不同的口头话语执行语音到文本处理，尤其是不需要在所述多个不同的口头话语中的每个口头话语之前明确调用自动助理。在某些情况下，会议计算设备可以是位于有一些(如果不是全部)会议参与者的房间或区域中的独立交互式扬声器或视频会议计算系统。然而，在多个会议参与者在地理位置上分开的其它情况下，在部署在多个位置处的多个会议计算设备上运行的自动助理可以执行本公开的选定方面。基于从语音到文本处理生成的文本，自动助理可以执行各种功能来改善会议的多个方面。

在一些实施方式中，自动助理可以使用语音到文本处理对从一个或多个话语中生成的文本执行语义处理。基于该语义处理，自动助理可以呈现(例如，作为音频和/或视觉输出)与会议讨论有关的各种信息。在一些实施方式中，自动助理可以响应于来自会议参与者的明确请求执行语义处理和/或呈现结果信息。另外或替代地，在一些实施方式中，当自动助理检测到会议会话中的暂停时，该自动助理可以执行语义处理和/或呈现信息。

自动助理可以执行各种形式的语义处理以实现各种目标。在一些实施方式中，语义处理可以被用于例如通过主题分类器来识别对话的一个或多个主题。在某些此类实施方式中，这些主题可以被用于例如生成搜索查询(例如，互联网搜索)，以维持与会议讨论相关联的“会议对话背景”(可以用于各种目的，诸如使参与者话语的消除歧义、填充自动助理请求的任务的时隙等)，等等。在自动助理基于所提出的主题(或更一般地，基于对参与者的话语执行的语义处理)生成搜索查询并执行搜索的实施方式中，自动助理可以一个或多个在会议计算设备处作为音频和/或视频输出提供响应于搜索查询的信息。

作为工作示例，假设有两个参与者正在计划滑雪旅行，而一个参与者说：“Weshould finalize our ski trip in Switzerland next weekend.Let's pick a resort(我们应该在下周末完成在瑞士的滑雪旅行。让我们选择一个度假胜地)。”在执行语音到文本处理以生成表示该口头话语的文本之后，自动助理可以对文本执行语义处理，以生成重复或至少概括该话语的搜索查询。在某些情况下，自动助理可以将从多个参与者的多个话语生成的文本组合成搜索查询。响应于搜索查询的信息可以包括例如瑞士的一个或多个滑雪胜地的列表。如果会议计算设备包括显示器或可以访问显示器，则这些结果可以自动呈现在显示器上，例如，就像如果所述用户中的一个用户已明确执行搜索一样。替代地，如果会议计算设备包括扬声器或可以访问扬声器，则可以例如在对话暂停期间在扬声器处以可听到的方式输出指示结果的数据。应理解，在可用输出组件是扬声器的许多实施方式中，与输出组件是显示器的情况相比，输出的信息可能较少。这是因为与视觉输出相比，音频输出可能会更分散注意力和/或需要更多时间来输出，并且可能有益于避免中断会议流程。

在一些实施方式中，输出到参与者的信息和/或进行中的会议对话上下文可以被用于对后续话语执行附加的语义处理。例如，并继续该工作示例，一个或多个参与者可能会问到一些后续问题，这些问题是受瑞士滑雪胜地搜索查询的呈现结果启发的。假设用户问：“how is the skiing there(那里的滑雪怎么样)？”孤立地看，这个问题可能太模糊，这是因为“那里”一词无法确定目标度假胜地。然而，如上所述，配置有本公开的所选方面的自动助理可以被配置成保存会议对话上下文，该会议对话上下文保存一个或多个讨论主题和/或已经由自动助理输出的信息。在该示例中，自动助理可以将“那里”消除歧义，例如，之前呈现的排名最高的瑞士滑雪胜地。或者，如果用户说了“Zermatt looks interesting,howis the skiing there(Zermatt看起来很有趣，那里滑雪怎么样)？”，则目标滑雪胜地可能替代地是“Zermatt”。在任何情况下，自动助理之后都可以生成并提交搜索查询，以查找有关目标度假胜地的滑雪质量的信息(例如，滑雪报告、雪量报告、用户评论等)。因而，对多个话语执行附加的语义处理能够解决所述话语中的一种或多种话语的歧义。反过来，这能够减少由这种歧义引起的自动助理的操作中的错误的风险(例如，向参与者输出错误的或其它次优的数据)。

如果参与者改为询问“What will the weather be like(天气如何)？”，则可以采用类似的技术来生成合适的搜索查询。同样地，这种陈述孤立来看过于模糊，以至于无法生成有意义的天气搜索查询。然而，基于保留的会议对话上下文，自动助理能够推断出天气搜索查询中使用的位置是先前呈现的排名最高的度假胜地，以及天气搜索查询中使用的时间是“下周末”。因而，自动助理可以搜索接下来的周末的排名最高度假胜地处的天气，并且可以将结果呈现给参与者。参与者和/或自动助理之间的这种来回关系可以继续用于其它类型的信息，诸如安排旅行(例如，能够呈现火车时刻表)、购买滑雪门票等。

在一些实施方式中，配置有本公开内容的所选方面的自动助理可以被配置成基于在会议期间检测到的多个不同话语来生成会议纪要。在各种实施方式中，会议纪要可以采用文档(例如，文本和/或图形)的形式，该文档包括多条信息，诸如由自动助理从会议讨论中检测到的一个或多个主题、由自动助理从会议讨论中检测到的会议的一个或多个结果、多个不同口头话语中的至少一些口头话语的文本文字记录、关于会议中的参与者的信息(例如，某些自动助理可能能够将语音与关于特定人员的语音简档进行匹配)，等等。会议纪要可以例如通过自动助理存储、传输和/或共享给一个或多个会议参与者。在一些实施方式中，会议纪要可以与被创建以排程会议的日历条目相关联。

在一些实施方式中，配置有本公开的所选方面的自动助理可以被配置成使用本文所述的技术(利用在一次会议期间生成的信息例如，会议对话上下文、会议纪要)来在随后的会议(例如跟进会议)中执行各种功能。假设第一次会议的参与者讨论了许多需待解决的动作项目，而这些动作项目被参与的自动助理检测到，并用于例如为第一次会议生成会议纪要。在跟进的第二次会议上，自动助理可以使用来自第一次会议纪要中的信息和/或来自第一次会议中存储的会议对话上下文中的信息来执行上述各种功能。例如，假设用户问：“OK,what were the action items from last meeting(好，上次会议的动作项目是什么)？”，则自动助理可以检索和输出这些动作项目，例如作为可听列表或在显示器上输出。在一些实施方式中，第二次会议的参与者可以指示自动助理一个或多个动作项目已经完成，或者自动助理可以基于对会议期间的参与者有声话语的语义处理来检测一个或多个动作项目已经完成。

在一些实施方式中，自动助理能够自行检测自第一次会议以来动作项目是否完成。例如，假设在第一次会议之后，所述参与者中的一个参与者与自动助理互动以解决某个动作项目(例如，购买一次性餐具)。在第二次会议上，该参与行动的自动化助手可以不呈现该动作项目，因为它已经得到解决。另外或替代地，该动作项目可以被呈现为“完成”。

在各种实施方式中，自动助理可以以各种方式确定两个或多个会议相关(例如，作为初始会议和跟进会议)。在一些实施方式中，参与者可以例如使用电子日历来排程会议，并且可以明确地链接会议。另外或替代地，在一些实施方式中，自动助理可以例如基于给到会议的标题、会议中的参与者的重叠、与会议相关联的文档等自动检测到两个或多个会议相关。在文档(例如，日历条目或其随附议程)与会议相关联的一些实施方式中，自动助理可以基于相关联的文档来生成初始会议对话上下文。

如上所述，由自动助理在会议期间生成的音频输出可能比视觉输出更分散注意力，参与者可能忽略这些视觉输出。因而，在各种实施方式中，自动助理可以识别多个会议参与者能够感知的由一个或多个会议计算设备使用的输出模态。然后，自动助理可以以基于识别的输出模态选择的频率在会议期间输出与多个不同的口头话语相关的数据。例如，如果会议计算设备是不具有显示器的独立交互式扬声器，则自动助理可以比会议计算设备包括显示器时更不频繁地提供输出(例如，搜索结果、动作项目状态等)。作为输出模态被确定为由也是所述会议参与者中的一个会议参与者的驾驶员驾驶的车辆中的音频输出的特定示例，可以选择与由由自动助理呈现多个不同的口述话语有关的数据的频率，以避免分散驾驶员的注意力。

在一些实施方式中，提供了一种由一个或多个处理器执行的方法，该方法包括：将至少部分在一个或多个会议计算设备上实现的自动助理设定成会议模式，在会议模式中，自动助理对多个不同的口头话语执行语音到文本处理，而无需在所述多个不同的口头话语中的每一个口头话语之前都明确调用自动助理，其中，多个不同的口头话语是由多个参与者在多个参与者之间的会议期间提供的；由自动助理对从多个不同口头话语中的一个或多个口头话语执行的语音到文本处理生成的第一文本自动执行语义处理，其中在没有明确参与者调用的情况下执行语义处理；由自动助理基于语义处理生成与第一文本有关的数据，其中，在自动助理处于会议模式时的同时，在一个或多个会议计算设备处将数据输出到多个参与者；由自动助理确定会议已结束；以及基于该确定，将自动助理设定成非会议模式，在非会议模式中，需要在对单个口头话语执行语音到文本处理之前调用自动助理。

本文公开的技术的这些和其它实施方式可以可选地包括以下特征中的一个或多个。

在各种实施方式中，可以将数据作为从自动助理经由一个或多个会议计算设备的扬声器输出的自然语言而输出到多个参与者。在各种实施方式中，可以经由多个参与者可见的一个或多个显示器将数据输出给多个参与者。

在各种实施方式中，该确定包括：由自动助理从所述多个参与者中的一个参与者接收指示会议已经结束的口头调用；或确定当前时间与会议的排程结束时间相匹配。

在各种实施方式中，可以响应于指示会议已经开始的口头调用或进入会议模式的明确命令，将自动助理设定成会议模式。在各种实施方式中，该方法还可包括对从多个口头话语中的一个或多个口头话语的语音到文本处理生成的第二文本执行附加的语义处理，其中，至少部分地基于与第一文本相关的数据执行附加的语义处理。在各种实施方式中，附加语义处理包括基于与第一文本有关的数据使第二文本的一个或多个标记消除歧义。

在各种实施方式中，该方法还可包括：由自动助理基于多个不同的话语来生成会议纪要，其中会议纪要包括由自动助理在自动助理处于会议模式的同时，从多个不同的口头话语中检测到的一个或多个主题。在各种实施方式中，会议纪要还可包括由自动助理在自动助理处于会议模式的同时，从多个不同的口头话语中检测到的会议的一个或多个结果。在各种实施方式中，会议纪要还包括多个不同口头话语中的至少一些口头话语的文本文字记录。

在各种实施方式中，该方法还可包括：确定该会议与先前的会议有关；以及由自动助理基于与先前会议相关联的信息，识别在先前会议期间生成的且与当前会议有关的附加数据，其中，在自动助理处于会议模式的同时，在一个或多个会议计算设备上将所述附加数据输出给多个参与者。

在各种实施方式中，该方法还可包括：识别由一个或多个会议计算设备使用的输出模态，该输出模态能够被多个参与者所感知；以及以与所识别的输出模态有关的频率，输出与多个不同的口头话语有关的数据。在各种实施方式中，输出模态包括由也是所述参与者中的一个的驾驶员驾驶的车辆中的音频输出，并且选择输出与多个不同的口头语音相关的数据的频率，以避免分散驾驶员的注意力。

另外，一些实施方式包括一个或多个计算设备的一个或多个处理器，其中所述一个或多个处理器能够操作以执行存储在相关联的存储器中的指令，并且其中所述指令被配置成引起执行任何前述方法。一些实施方式还包括一个或多个非暂时性计算机可读存储介质，其存储能够由一个或多个处理器执行的计算机指令，以执行任何前述方法。其它实施方式包括一个或多个瞬时计算机可读存储介质(例如，诸如光、电或电磁信号的信号)，所述一个或多个瞬时计算机可读存储介质存储或体现能够由一个或多个处理器执行计算机指令，以执行任何前述方法。

应明白，本文中更详细描述的前述概念和附加概念的所有组合应被认为是本文公开的主题的一部分。例如，出现在本公开的结尾处的所要求保护的主题的所有组合都应被认为是本文公开的主题的一部分。

附图说明

图1是其中可实施本文公开的实施方式的示例环境的方框图。

图2A、图2B、图2C和图2D描绘了根据各种实施方式的可如何在特定情况下采用本文所述的技术的一个示例。

图3示出了根据各种实施方式的可如何在另一种情况下采用本文所述的技术的另一示例。

图4示出了根据本文公开的实施方式的示例方法的流程图。

图5示出了计算设备的示例架构。

具体实施方式

现在参考图1，示出了其中可以实现本文公开的技术的示例环境。该示例环境包括一个或多个客户端计算设备106_1-N。每个客户端设备106都可以执行自动助理客户端118的相应实例。可以在一个或多个计算系统(统称为“云”计算系统)上实现一个或多个基于云的自动助理组件119，诸如自然语言处理器122，所述一个或多个计算系统经由整体以110指示的一个或多个局域网和/或广域网(例如，因特网)以可通信的方式耦合到客户端设备106_1-N。

如背景技术中所述，通过与一个或多个基于云的自动助理组件119的交互，自动助理客户端118的实例可以形成从用户的角度看似乎是用户可以与其进行人机对话的自动助理120的逻辑实例。在图1中描绘了这种自动助理120的两个实例。由虚线包围的第一自动助理120A服务于操作第一客户端设备106₁的第一用户(未示出)，并且包括自动助理客户端118₁和一个或多个基于云的自动助理组件119。由双点划线包围的第二自动助理120B服务于操作另一客户端设备106_N的第二用户(未示出)，并且包括自动助理客户端118_N和一个或多个基于云的自动助理组件119。因而，应理解，在一些实施方式中，实际上与在客户端设备106上执行的自动助理客户端118交互的每个用户都可与自动助理120的他或她自身的逻辑实例交互。为了简洁和简单起见，本文中用作“服务”特定用户的术语“自动助理”将指在由用户操作的客户端设备106上执行的自动助理客户端118与一个或多个基于云的自动助理组件119(可以在多个自动助理客户端118之间共享)的组合。还应理解，在一些实施方式中，自动助理120可以与用户是否由自动助理120的特定实例实际“服务”无关地响应于来自任何用户的请求。

客户端设备106_1-N可以包括例如以下的一个或多个设备：台式计算设备、膝上型计算设备、平板计算设备、移动电话计算设备、用户的车辆的计算设备(例如，车载通信系统、车载娱乐系统、车载导航系统)、独立的交互式扬声器、诸如智能电视的智能电器和/或用户的可穿戴装置，所述可穿戴装置包括计算设备(例如，用户的具有计算设备的手表、用户的具有计算设备的眼镜、虚拟现实或增强现实计算设备)。可以提供附加的和/或替代的客户端计算设备。

在各种实施方式中，所述客户端计算设备106_1-N中的每一个客户端计算设备都可以操作各种不同的应用程序，诸如多个消息交换客户端107_1-N中的一个对应的消息交换客户端。消息交换客户端107_1-N可以具有各种形式，并且这些形式可以在客户端计算设备106_1-N之间变化和/或可以在客户端计算设备106_1-N中的单个客户端计算设备上操作多种形式。在一些实施方式中，一个或多个消息交换客户端107_1-N的形式可以为短消息服务(“SMS”)和/或多媒体消息服务(“MMS”)客户端、在线聊天客户端(例如，即时通讯程序、因特网中继聊天或“IRC”等)、与社交网络相关联的消息应用程序、专用于与自动助理120进行对话的个人助理消息服务等。在一些实施方式中，一个或多个消息交换客户端107_1-N可以经由网页或由网页浏览器(未描绘)或客户端计算设备106的其它应用程序所提供的其它资源来实现。

如本文中更详述的，自动助理120经由一个或多个客户端设备106_1-N的用户接口输入和输出设备与一个或多个用户进行人机对话会话。在一些实施方式中，响应于用户经由所述客户端设备106_1-N中的一个客户端设备的一个或多个用户接口输入设备提供的用户接口输入，自动助理120可以与用户进行人机对话会话。在那些实施方式中的一些中，用户接口输入被明确定向到自动助理120。例如，所述消息交换客户端107_1-N中的一个消息交换客户端可以是专用于与自动助理120的对话的个人助理消息服务，并且经由该个人助理消息服务提供的用户接口输入可以被自动提供给自动助理120。此外，例如，可以基于指示将调用自动助理120的特定用户接口输入，将用户接口输入明确定向到一个或多个消息交换客户端107_1-N中的自动助理120。例如，特定用户接口输入可以是一个或多个键入的字符(例如，@自动助理)，用户与硬件按钮和/或虚拟按钮的交互(例如，轻击、长按)、口头命令(例如，“Hey Automated Assistant(嘿，自动助理)”)和/或其它特定的用户接口输入。

在一些实施方式中，即使当用户接口输入未明确指向自动助理120时，自动助理120也可以响应于用户接口输入而参与对话会话。例如，自动助理120可以检查用户接口输入的内容，并响应于用户接口输入中存在的某些术语和/或基于其它提示而参与对话会话。在一些实施方式中，自动助理120可以进行交互式语音响应(“IVR”)，使得用户能够说出命令、进行搜索等，并且自动助理可以利用自然语言处理和/或一种或多种语法来将话语转换成文本，并相应地响应该文本。在一些实施方式中，自动助理120能够另外或替代地对话语做出响应而无需将所述话语转换成文本。例如，自动助理120能够将语音输入转换成嵌入、一个或多个实体表示(指示语音输入中存在的一个或多个实体)和/或其它“非文本”表示，并对这种非文字表示进行操作。因而，本文描述为基于从语音输入转换的文本进行操作的实施方式可以另外和/或替代地直接对语音输入和/或语音输入的其它非文本表示进行操作。

所述客户端计算设备106_1-N中的每一个客户端计算设备和操作基于云的自动助理组件119的一个或多个计算设备都可包括用于存储数据和软件应用程序的一个或多个存储器、用于访问数据并执行应用程序的一个或多个处理器，以及有助于通过网络进行通信的其它组件。由一个或多个客户端计算设备106_1-N和/或由自动助理120执行的操作可以被分布在多个计算机系统上。自动助理120可以被实现为例如在通过网络彼此耦合的一个或多个位置中的一个或多个计算机上运行的计算机程序。

如上所述，在各种实施方式中，所述客户端计算设备106_1-N中的每一个客户端计算设备都可以操作自动助理客户端118。在各种实施方式中，每个自动助理客户端118都可以包括对应的语音捕捉/文本到语音(“TTS”)/STT模块114。在其它实施方式中，语音捕捉/TTS/STT模块114的一个或多个方面可以与自动助理客户端118分开实现。

每个语音捕捉/TTS/STT模块114都可被配置成执行下列一个或多个功能：例如经由麦克风(在某些情况下可能包括存在传感器105)捕捉用户的语音；将捕捉的音频转换成文本(和/或其它表示或嵌入)；和/或将文本转换成语音。例如，在一些实施方式中，由于客户端设备106可能在计算资源(例如，处理器周期、存储器、电池等)方面受到相对限制，因此每个客户端设备106的本地的语音捕捉/TTS/STT模块114都可被配置成将有限数量的不同口头短语——特别是调用自动助理120的短语——转换成文本(或转换成其它形式，诸如较低维度的嵌入)。其它语音输入可以被发送到基于云的自动助理组件119，其可以包括基于云的TTS模块116和/或基于云的STT模块117。

基于云的STT模块117可以被配置成利用云的几乎无限的资源将由语音捕捉/TTS/STT模块114捕捉的音频数据转换成文本(然后可以将其提供给自然语言处理器122)。基于云的TTS模块116可以被配置成利用云的几乎无限的资源来将文本数据(例如，由自动助理120制定的自然语言响应)转换成计算机生成的语音输出。在一些实施方式中，TTS模块116可以将计算机生成的语音输出提供给客户端设备106，从而例如使用一个或多个扬声器来直接输出。在其它实施方式中，可以将由自动助理120生成的文本数据(例如，自然语言响应)提供给语音捕捉/TTS/STT模块114，然后，语音捕捉/TTS/STT模块114可以将文本数据转换成本地输出的计算机生成语音。

自动助理120(特别是基于云的自动助理组件119)可以包括自然语言处理器122、上述TTS模块116、上述STT模块117、对话状态跟踪器124、对话管理器126，以及自然语言生成器128(在一些实施方式中可以与TTS模块116组合)，并且包括与本公开特别相关的会议引擎130。在一些实施方式中，自动助理120的引擎和/或模块中的一个或多个可以被省略，组合，和/或在与自动助理120分离的组件中实现。

在一些实施方式中，自动助理120响应于在与自动助理120的人机对话会话期间由所述客户端设备106_1-N中的一个客户端设备的用户生成的各种输入来生成响应内容。自动助理120可以(例如，当与用户的客户端设备分开时通过一个或多个网络)提供响应内容，以作为对话会话的一部分呈现给用户。例如，自动助理120可以响应于经由所述客户端设备106_1-N中的一个客户端设备提供的自由形式的自然语言输入来生成响应内容。如本文中所使用的，自由形式输入是由用户制定的并且不限于为了被用户选择而呈现的一组选项的输入。

如本文中所使用的，“对话会话”可以包括用户与自动助理120(在某些情况下，其它人类参与者)之间的一个或多个消息的逻辑上独立的交换和/或由自动助理120执行一个或多个响应性动作。自动助理120可以基于各种信号区分与用户的多个对话会话，所述各种信号诸如会话之间的时间流逝、会话之间的用户背景的改变(例如，位置，排程会议之前/之中/之后等等)、检测用户和客户端设备之间除了用户和自动助理之间的对话之外的一个或多个插入交互(例如，用户打开应用程序一会，用户走开然后返回单独的语音激活产品)、会话之间客户端设备的锁定/休眠、用于与自动助理120的一个或多个实例交互的客户端设备的改变，等等。如将在下文更详细地描述的，在一些实施方式中，自动助理120可以例如通过会议引擎130来促进“会议对话会话”，其中自动助理120被转换成“会议模式”，在“会议模式”中不需要在每次口头话语(或书面陈述)之前进行明确调用即可执行各种功能，诸如自然语言处理。

自动助理120的自然语言处理器122(或者称为“自然语言理解引擎”)处理由用户经由客户端设备106_1-N生成的自由形式自然语言输入，并且在一些实施方式中可以生成由自动助理120的一个或多个其它组件使用的注释输出。例如，自然语言处理器122可以处理用户通过客户端设备106₁的一个或多个用户接口输入设备生成的自然语言自由形式输入。所生成的注释输出可以包括自然语言输入的一个或多个注释，以及可选地包括自然语言输入的一个或多个(例如，全部)术语。

在一些实施方式中，自然语言处理器122被配置成识别和注释自然语言输入中的各种类型的语法信息。例如，自然语言处理器122可以包括语音标记器的一部分(未描绘)，其被配置成用它们的语法角色来注释术语。例如，语音标记器的一部分可以用其语音的一部分(诸如“名词”、“动词”、“形容词”、“代词”等)来标记每个术语。此外，例如，在一些实施方式中，自然语言处理器122可以另外和/或替代地包括被配置成确定自然语言输入中的术语之间的句法关系的依赖性分析器(未描绘)。例如，依赖性分析器可以确定哪些术语修改了其它术语、句子的主语和动词等等(例如，解析树)——并且可以对这些依赖性进行注释。

在一些实施方式中，自然语言处理器122可以另外和/或可选地包括实体标记器(未描绘)，该实体标记器被配置成在一个或多个段中注释实体参考，诸如对人(包括例如文学人物、名人、公众人物等)、组织、位置(真实的和虚构的)的参考等等。在一些实施方式中，关于实体的数据可被存储在一个或多个数据库中，诸如被存储在知识图(未描绘)中。在一些实施方式中，知识图可以包括代表已知实体(在某些情况下，还包括实体属性)的节点，以及连接节点并代表实体之间关系的边。例如，“banana(香蕉)”节点可以被连接(例如，作为子节点)到“fruit(水果)”节点，“fruit”节点又可以被连接(例如，作为子节点)到“produce(农产品)”和/或“food(食物)”节点。作为另一示例，称为“Hypothetical café”的餐厅可以由节点表示，该节点还包括诸如其地址、所供应食物的类型、营业时间、联系信息等属性。在一些实施例中，“Hypothetical café”节点可以通过边缘连接(例如，表示子节点-父节点关系)连接到一个或多个其它节点，诸如“restaurant(餐厅)”节点、“business(企业)”节点、表示餐厅所在城市和/或州的节点，等等。

自然语言处理器122的实体标记器可以以较高的粒度级别(例如，使得能够识别对诸如人的实体类别的所有参考)和/或较低的粒度级别(例如，使得能够识别对诸如特定人员的特定实体的所有参考)注释对实体的参考。实体标记器可以依赖于自然语言输入的内容来解析特定实体和/或可以可选地与知识图或其它实体数据库进行通信以解析特定实体。

在一些实施方式中，自然语言处理器122可以另外和/或替代地包括共参考解析器(未描绘)，该共参考解析器被配置成基于一个或多个背景线索来对同一实体的参考进行分组或“聚类”。例如，在自然语言输入“I liked Hypothetical Cafe last time we atethere(上次我们在那里用餐时我喜欢Hypothetical café)”中，可以使用共参考解析器将术语“there(那里)”解析为“Hypothetical café”。

在一些实施方式中，自然语言处理器122的一个或多个组件可以依赖于来自自然语言处理器122的一个或多个其它组件的注释。例如，在一些实施方式中，命名的实体标记器在对特定实体的所有方面进行注释时，可以依赖于来自共参考解析器和/或依赖性分析器的注释。另外，例如，在一些实施方式中，在对同一实体的参考聚类时，共参考解析器可以依赖于来自依赖性分析器的注释。在一些实施方式中，在处理特定自然语言输入时，自然语言处理器122的一个或多个组件可以使用相关的先前输入和/或特定自然语言输入之外的其它相关数据来确定一个或多个注释。

在一些实施方式中，对话状态跟踪器124可以被配置成跟踪“对话状态”，对话状态包括例如在人机对话会话过程期间、跨多个对话会话和/或在会议对话会话期间的一个或多个用户的目标(或“意图”)的简要状态。在确定对话状态时，一些对话状态跟踪器可能试图基于对话会话中的用户和系统话语来确定在对话中实例化的一个或多个时隙的最有可能值。一些技术利用固定的本体，这种固定的本体定义了一组时隙以及与那些时隙相关联的一组值。另外或替代地，一些技术可以为单独时隙和/或域定制。例如，某些技术可能需要针对每个域中的每种时隙类型训练模型。

对话管理器126可以被配置成将例如由对话状态跟踪器124提供的当前对话状态映射到然后由自动助理120执行的多个候选响应动作中的一个或多个“响应动作”。根据当前对话状态，响应动作可能有多种形式。例如，响应于在最后一轮(例如，当执行最终用户期望的任务时)之前发生的多轮对话会话的初始和中间对话状态可以被映射到各种响应动作上，所述响应动作包括自动助理120输出附加的自然语言对话。这种响应对话可以包括例如请求用户为对话状态跟踪器124认为用户打算执行的某些动作(即，填充时隙)提供参数。在一些实施方式中，响应动作可以包括诸如“请求”(例如，寻找用于时隙填充的参数)、“提供”(例如，为用户建议动作或动作过程)、“选择”、“通知”(例如，向用户提供所请求的信息)、“不匹配”(例如，通知用户该用户的最后输入未被理解)等等。

会议引擎130可以被配置成促进自动助理120的“会议模式”，其使得自动助理120能够“参与”多个人类参与者之间的会议并执行各种功能。在各种实施方式中，配置有本公开的所选方面的自动助理120可以至少部分地在本文中将称为“会议计算设备”的计算设备上操作。会议计算设备可以是任何计算设备，其包括一个或多个客户端设备106，其能够使用一个或多个输入/输出组件(诸如扬声器、显示器，尤其是麦克风)参与多个人类参与者之间的会议。多种计算设备可能特别适合用作会议计算设备，诸如独立的交互式扬声器、视频会议计算系统、车辆计算系统等。然而，具有麦克风和至少一个输出组件(例如，音频或视频)的任何计算设备都可被用作会议计算设备。

在各种实施方式中，会议引擎130可以被配置成将自动助理120设定成上述“会议模式”，以使自动助理120对多个不同的口头话语执行语音到文本处理(例如，通过STT117)，而无需在多个不同的口头话语中的每一个口头话语之前明确调用自动助理120。在许多情况下，在多个参与者之间的会面或会议期间，多个参与者可能提供多个不同的口头话语。通过执行自然语言处理和口头用户话语的其它处理，而无需每次都需要进行明确调用，自动助理120能够执行可能对会面的参与者有帮助的各种功能。例如，避免需要在每次话语之前明确调用自动助理能够减少自动助理无法处理全部或部分特定话语的风险，如果自动助理处于非会议模式(即，其中不定期执行语音到文字处理的模式)下，当出现话语时，则可能会发生这种风险。由此提高自动助理的可靠性。

例如，在一些实施例方式中，当处于会议模式时，自动助理120可以自由地基于参与者的讨论向参与者提供信息。更具体地，在一些实施方式中，自动助理120可以自动地(即，在不需要来自参与者的明确命令的情况下)对第一文本执行语义处理(例如，通过自然语言处理器122和/或其它基于云的自动助理组件119)，所述第一文本从由会面参与者提供的多个不同口头话语中的一个或多个不同口头话语的语音到文本处理生成。如果自动助理120不在会议模式下，它将不会在明确调用内执行此类语义处理。基于语义处理，自动助理120可以生成与经语义处理的文本有关的数据。例如，如果文本是从包括问题的用户话语生成的，则该文本可以被用于生成自动助理120提交给一个或多个数据库的搜索查询。然后，可以由自动助理120获得响应于搜索查询的数据，并将其在一个或多个会议计算设备处输出给多个会议参与者。下面将描述这种情况的示例。

并非每个参与者的话语都值得通过自动助理120做出响应。例如，参与者可能在会议期间开一个非正式的玩笑，他们可能不希望自动助理120对该玩笑做出反应。因而，在各种实施方式中，自动助理120可以分析各种标准，以基于参与者的讨论的语义处理来确定是否将其检索的内容注入到会议内容中。在一些实施方式中，自动助理120可以确定与其响应于参与者的话语获得的信息相关联的相关性得分。如果检索到的信息具有满足某个最小相关性阈值的相关性得分，则自动助理120可以潜在式地将该信息并入到讨论中(例如，受与以下描述的模态有关的其它约束)。另一方面，如果所检索的信息具有不满足这种阈值的相关性得分，则自动助理120可以避免将该信息并入到会议讨论中，这是因为该信息可能对参与者没有用处或不被其很好地接受。

自动助理120可以在会议模式下执行各种其它功能，以帮助会议参与者。例如，自动助理120可以提供音频或视觉输出，该音频或视觉输出向参与者提供关于议程、一个或多个文档的信息或与会议相关联的其它信息。假设使用电子/在线日历系统来排程会议，并且日历条目包括例如由所述参与者中的一个参与者准备的会议议程。这样的会议议程可以包括各种信息，诸如讨论的一个或多个主题、行动项目及其相关状态(例如，完成或未完成)、参与者身份、待表决的议程项目、当前会议与先前或将来会议的关系，等等。

在一些实施方式中，可以在会议期间显示和/或连续重新显示和/或周期性地显示这样的会议议程。例如，在一些实施方式中，自动助理120可以配置有主题分类器，该主题分类器从由参与者话语生成的文本中识别提出的一个或多个主题和/或识别讨论何时已在不同主题之间转换。这样的主题分类器可以采用通常用于文档分类的各种主题分类的已知技术，诸如期望最大化、词频-逆文件频率(“TF-IDF”)，朴素贝叶斯分类、潜在语义索引、支持向量机、人工神经网络、决策树、概念挖掘等。

在会议议程包括行动项目的一些实施方式中，自动助理120可以被配置成在语义上处理由参与者在会议期间提供的话语，以确定行动项目是否已解决(例如，解决、延迟、修改、取消等)。自动助理120可以在显示议程时相应地修改所显示的关于动作项目的信息。下面关于图2C描述其的一个示例。另外，在呈现幻灯片序列的一些实施方式中，自动助理120可以在语义上处理参与者的话语，以自动地将幻灯片在整个序列前进。

在一些实施方式中，自动助理120可以例如在从会议模式转回自动助理120需要在语义处理话语之前明确调用的非会议或“正常”模式之后生成会议纪要。在一些实施方式中，会议纪要可以类似于会议议程，只是可以基于通过对会议的讨论进行语义处理而学习的会议参与者的讨论内容来对会议纪要进行注释。另外或替代地，并且特别是在会议之前没有准备会议议程的情况下，自动助理120可以仅基于对参与者的讨论的语义处理来重新生成会议纪要。由此能够减少或消除在会议期间需要一个或全部会议参与者记笔记的需要。此外，能够减少或避免由人类参与者所做的笔记中的错误和/或遗漏。

由自动助理120生成的会议纪要可以包括各种其它信息。除了或代替也可能被包括在会议议程中的信息，使用本文所述的技术生成的会议纪要可以包括所讨论的主题(可以至少部分地通过上述主题分类器进行检测)、创建/解决/修改的行动项目、会议的结果(例如，预订场地、购买门票、投票结果等)、会议期间的一些或全部参与者的话语的部分或全部笔录、下一(或跟进)会议(如果参与者讨论排程一个会议)等等。

在各种实施方式中，自动助理120可以例如通过会议引擎130来确定会议何时开始和/或结束——并且因此使用各种提示确定何时自动助理120应在会议模式和正常模式之间转换。在一些实施方式中，会议参与者可以发出明确命令，诸如“Hey Assistant,let'sstart the meeting(嘿，助理，让我们开始会议)”，以使自动助理120转换到会议模式中。另外或替代地，在一些实施方式中，自动助理120可以基于用户话语推断何时从正常模式转换到会议模式。例如，当一个参与者例如向另一参与者(不是直接对自动助理120说)说一些像是“OK,let's get started(好，我们开始)”或“Let's bring this meeting to order(我们召开会议)”时，自动助理120可从正常模式转换到会议模式。如果会议是应该遵循正式程序的会议类型，诸如公开听证会、非营利性董事会会议等，则可能检测到通常和/或官方发出的开始此类正式会议的短语，并使自动助理120从正常模式转换到会议模式。在一些实施方式中，自动助理120可以被配置成统计由参与者在这样的会议上投的票。

在一些实施方式中，自动助理120可以访问一个或多个电子日历条目，该电子日历条目指示会议将在特定的时间和/或位置举行。在一些这样的实施方式中，当自动助理120检测到(例如，使用一个或多个麦克风和/或相机)至少一些参与者在指定的会议地点共同出席时，自动助理120可以在会议的排程开始时间和/或在排程开始时间之后的某个时间点自动转换到会议模式中。类似地，自动助理120可以基于明确用户指令(例如，“HeyAssistant,let's end the meeting(嘿，助理，让我们结束会议”))、隐式用户话语(例如，“Let's call it a day(今天到此结束”))和/或正式的话语(例如，“This meeting isadjourned(会议休会”))来确定何时从会议模式转换回到正常模式中。通过自动地将自动助理转换回到非会议模式，能够避免话语的与会议无关的不必要的语音到文本处理(和后续处理)。这又能够使得自动助理小号的计算资源比其持续在会议模式下消耗的计算资源少。

与自动助理120相关联的各种挑战是自动将内容合并到多个人类参与者之间的会议中。如果人类参与者正在彼此交谈，而不是在与自动助理120交谈，则当一个参与者期望来自另一个参与者的反馈时，自动助理120提供内容可能会分散注意力。如果自动助理120太快以至于不能响应于说话者的包括问题(自动助理120可能作为搜索查询提交)的话语而提供搜索结果时，则响应内容的呈现(尤其是在听得到的情况下)可能会分散注意力和/或打断打算对讲话者的话语做出响应的一个或多个参与者。此外，如果自动助理120为太多的参与者话语提供响应内容，则参与者可能分心和/或被太多的信息淹没。换句话说，自动助理120可能变得令人讨厌。

因而，在各种实施方式中，自动助理120可以被配置成在基于各种提示向会议参与者输出内容(也称为“将内容注入到讨论中”)时行使各种级别的判断力。在一些实施方式中，当自动助理120在语义上处理参与者的话语并且已经检索到响应内容时，则自动助理120可以在其提供响应内容作为输出之前等待对话中的暂停(例如，预定的时间间隔，诸如五秒等)。在一些这样的实施方式中，如果没有这样的暂停发生，例如由于会议参与者认真地继续他们的讨论，则自动助理120可以等待暂停或丢弃响应内容，尤其是在自动助理120确定所讨论的上下文已经改变(例如，检测到新的讨论主题)的情况下。在一些实施方式中，如果对话中没有暂停某个预定时间间隔(诸如一分钟、五分钟、三十秒等)，则自动助理120可以丢弃这种响应内容。

在一些实施方式中，当自动地将内容注入到与自动助理120可用的输出模态的类型相对应的讨论中时，自动助理120可以行使一定级别的判断力。如果过于频繁地呈现例如由客户端设备106以配置有本公开的选定方面的独立扬声器或会议电话形式提供的可听输出，则可能会分散注意力。相比之下，视觉输出可能不会那么分散注意力。因而，如果自动助理120能够在显示器(例如，会议电视屏幕或甚至参与者观看的单个计算机屏幕)上提供视觉输出，则自动助理120在确定是否输出内容和/或何时输出内容时可以行使相对较低级别的判断力。另一方面，如果自动助理120仅能够经由一个或多个扬声器提供听觉输出，则在确定是否输出内容和/或何时输出内容时，自动助理120可以行使较大级别的判断力。

本文所述的示例主要针对这样的场景，其中多个会议参与者与客户端设备106在物理上共处一地，该客户端设备106诸如为操作配置有本公开的所选方面的自动助理120的独立交互式扬声器和/或显示器。然而，这并不意味着是限制性的。本文所述的技术同样适用于会议参与者不在同一地点的情况。例如，假设两个或更多参与者正在使用视频会议进行会议，例如，在每个用户都坐在他或她自己的计算机前的情况下。在一些实施方式中，自动助理120可以在他们各自的屏幕上向每个参与者提供相同的输出。在其它实施方式中，自动助理120可以例如，根据各个参与者的偏好、各个参与者的内容(例如，一个参与者可能在公共场所并且可能不希望显示潜在的敏感信息)，等等，在他们的屏幕上向每个参与者提供不同的内容。在两个会议参与者不在同一地点并且以不同的输出模态(例如，一种是音频，一种是视频)来操作客户端设备106的情况下中，自动助理120可以向具有视觉输出能力的参与者提供(或“推送”)比仅具有音频输出能力的参与者更多的内容。

图2A至图2D示出了多个参与者202_1-3之间的会议的一个示例，其中自动助理120通过被至少部分地在一个或多个客户端设备206_1-2上执行来“参与”该会议。在该示例中，第一客户端设备206₁采取具有麦克风(未具体描绘)的独立交互式扬声器的形式，而第二客户端设备206₂采取具有显示能力的智能电视的形式。对于此示例，能够假定参与者202_1-3使用电子日历排程了该会议，并且存在由所述参与者中的一个参与者无论是在日历条目中还是在日历条目所附的单独文档中定义的议程。

在图2A中，第一参与者202₁通过说出“OK,Assistant,let's start the meeting(好，助理，让我们开始会议)”这样的话语来开始会议。这是用于自动助理120从非会议模式或正常模式转换到上述会议模式的明确命令的示例。会议的议程显示在第二客户端设备206₂上，例如，按照自动助理120的要求显示。该议程包括两个主题：“计划公司活动”和“审查预算”。在一些实施方式中，可以在自动助理120转换到会议模式时显示议程。

在图2B中，第二参与者202₂说：“We should plan the company event at theball park(我们应该计划在棒球场的公司活动)。”基于该话语的语义处理，自动助理120可以确定她正在提及会议议程上的第一项(“计划公司活动”)。自动助理120还可以例如通过上文讨论的实体标记器确定“棒球场”是对与特定运动队相关联的特定场所的引用。尽管在图2B中未描绘，但是在一些实施方式中，此时自动助理120可以使第二客户端设备206₂显示关于棒球场的各种信息，诸如图片、到其网站的链接、关于运动队的信息等。第三参与者202₃通过询问“Good idea,what's its schedule？(好主意，它的时间表是什么)？”来响应第二参与者的陈述。例如，借助于先前描述的共参考解析器，自动助理120可以将词语“its(它的)”解析为先前识别的运动队。然后，自动助理120可以生成并提交针对该运动队的时间表的搜索查询，并且可以在第二客户端设备206₂上显示响应数据，如图2B中所示。

图2C描绘了参与者202_1-3在已经结束讨论公司事件并转向下一个主题之后的下一个阶段的相同会议。第一参与者202₁说：“Good,looks like the event is planned(很好，看起来活动已经安排好了)”。自动助理120可以在语义上处理该话语，并将其与会议议程项目中的一个议程(例如，第一行动项目“计划公司事件”)相关联。另外，自动助理120可以基于语义处理来确定已经解决了该特定议程项目。因而，自动助理120可以在第二客户端设备206₂上呈现(或重新呈现)会议议程，其中，例如，利用图2C中所示的删除线或另一视觉指示器(例如，复选框、字体等)将会议议程项目“计划公司事件”描绘为完成。通过呈现在讨论的这一时间点上的会议议程，当参与者202_1-3似乎正在过渡到不同主题时，提醒参与者202_1-3下一个讨论的主题，在这种情况下，该主题是查看预算。这有助于使会议集中注意力并使参与者保持主题。

图2D描绘了会议结束时可能发生的情况的一个示例。第三参与者202₃说：“OK,let's get out of here(好的，我们走吧)”。如前所述，自动助理120可以在语义上处理该话语，以推断会议已结束。因此，在图2D中，自动助理120可以采取多个动作，所述多个动作包括在第二客户端设备206₂上显示会议纪要以及从会议模式转换到非会议或正常模式。在该示例中，显示的会议纪要包括所讨论主题的列表，该主题列表可能是部分由原始会议议程生成或可能不是。这里，会议纪要包括会议的结果，包括计划公司活动和审查预算。另外，会议纪要包括由参与者202_1-3在会议期间讨论的行动项目，例如关于预算审查的行动项目，并且由自动助理120在语义上进行检测。

在一些实施方式中，例如可以通过电子邮件或文件共享的方式向一个或多个会议参与者提供诸如图2D中所描绘的会议纪要。在由自动助理120确定已经计划跟进会议的一些实施方式(例如，根据会议期间讨论的语义处理或通过链接到原始日历条目的新日历条目)中，可以保存并在跟进会议上呈现该会议纪要(例如，作为会议议程)。在一些实施方式中，自动助理120可以自动检测两个会议何时相关并且因此可以共享议程和/或主题。例如，自动助理120可以检查与多个会议相关联的元数据(例如，标题)，或者确定多个会议共享参与者。在一些实施方式中，自动助理120可以检测建议定期排程的会议的多个会议中的模式，并且可以跨多个会议“继承”会议纪要。

在一些实施方式中，自动助理120可以例如，以将会议议程和/或纪要推送给那些参与者为目的，以各种方式来标识会议参与者。作为简单示例，日历条目可以明确标识会议参与者，自动助理120可以使用日历条目来确定参与者的电子邮件地址。另外或替代地，在一些实施方式中，自动助理120可以被配置成执行语音识别以标识会议参与者，并且然后可以将所标识的参与者与已知的用户简档进行匹配。作为另一示例，在一些实施方式中，例如在会议开始时，参与者可以作为介绍的一部分来明确标识他们自己，并且自动助理120可以检测口头姓名(并且例如能够将这些姓名添加到会议纪要)。

在图2A至图2D的示例情况下，所有会议参与者都位于同一地点。然而，如上所述，这并不意味着是限制性的。图3描绘了在操作台式计算机形式的第一客户端设备306₁的第一参与者(未描绘)与驾驶车辆340的第二参与者(未描绘)之间发生的会议的示例，车辆340包括形成第二客户端设备306₂的车载计算系统。对于该示例，能够假定第一参与者能够说出或键入由自动助理120进行语义处理的自由形式的自然语言输入，但是第二个参与者(由于开车)限于只提供口头自由形式的自然语言输入。自动助理120能够在第一客户端设备306₁处以视觉和/或听觉方式提供信息，但是在第二客户端设备306₂处仅以听觉方式提供信息，这是因为视觉输出可能分散正在驾驶的参与者的注意力。

假设第一客户端设备306₁处的第一参与者在会议期间说了一些像“Do you wantto go to Lexington this weekend？(您想在这个周末去列克星敦吗？)”的话，并且操作客户端设备306₂的第二(驾驶)用户做出响应，“Maybe,depends on the weather(也许吧，看天气)”。自动助理120可以对这些话语执行语义处理，以生成一个或多个搜索查询，并检索有关列克星敦和本周末列克星敦的天气的信息。因为第一参与者正在操作具有显示器的第一客户端设备306₁，所以自动助理120可以在选择待呈现的响应信息时行使相对较少的判断力。这是因为不知道第一个参与者是否参与了诸如驾驶之类的活动，以及因为视觉输出可能最不分散注意力。因而，在第一计算设备306₁处可视地呈现了大量的响应信息，所述响应信息包括关于列克星敦本身的其它兴趣点、周日列克星敦的天气以及在列克星敦一小时车程内的兴趣点。

相比之下，自动助理120仅能够使用音频输出将信息推送到驾驶车辆340的第二参与者。因而，自动助理120可能对其提供的信息更具选择性。例如，虽然参与者大致在讨论列克星敦的位置，但他们并未明确询问彼此有关兴趣点的信息。因而，与在第一客户端设备306₁上显示的各个兴趣点相关联的相关性得分可能不满足用于驾驶参与者的最小相关性得分。因此，当第一参与者看到有关列克星敦的所有信息时，驾驶车辆的第二参与者仅听到最相关的信息，即周日列克星敦的天气。

因而，能够看出，在各种实施方式中，自动助理120可以基于会议参与者的上下文来调整相关性阈值。作为另一示例，假设图3中的第一用户正在操作第一客户端设备306₁来工作(例如，起草文档、在电子表格中工作、进行研究等)。在这种上下文下，可能不希望在视觉上以与对话有关的信息淹没或分散第一参与者的注意力。因而，自动助理120可以将与第一参与者相关联的相关性阈值调整到与第二驾驶、参与者相关联的更高的相关性阈值更紧密地对准。例如，尽管具有显示能力，但是由于第一参与者将显示器用于其它目的，因此自动助理120可以选择以听觉而不是视觉的方式将信息推送给第一参与者，以避免分散第一参与者的注意力。

图4是示出根据本文公开的实施方式的示例方法400的流程图。为了方便起见，参考执行这些操作的系统来描述流程图的操作。该系统可以包括各种计算机系统的各种组件，诸如实现自动助理120的计算系统的一个或多个组件。此外，尽管以特定顺序示出了方法400的操作，但这并不意味着是限制性的。可以重新排序、省略或添加一个或多个操作。

在方框402处，系统可以将至少部分地在一个或多个会议计算设备上实现的自动助理120设定成会议模式，在该会议模式中，自动助理对多个不同的口头话语执行语音到文本处理，而不需要在所述多个不同的口头话语中的每一个口头话语之前都明确调用自动助理。如本文所述，在各种实施方式中，多个不同的口头话语可以由多个人类参与者在多个参与者之间的会议期间提供。

在方框404处，系统可以对从多个不同口头话语中的一个或多个口头话语的语音到文本处理生成的第一文本自动执行语义处理。特别地，可以在没有明确参与者调用的情况下执行语义处理。并且实际上，在各种实施方式中，系统可以对从所有参与者话语生成的文本执行语义处理。如果无法理解特定的参与者话语，则可能无法将语音转换成文本，在这种情况下，自动助理120不采取任何动作。如果特定的参与者话语是可理解的，但是当语义处理未产生与会议讨论相关的信息时(例如，相关性得分不能满足相关性阈值)，则自动助理120可以不对检索到的信息采取任何动作。然而，在方框406处，如果基于语义处理检索到的信息满足某些标准，诸如相关性阈值，则系统可以基于作为语义处理的结果而获得的信息来生成相关数据(例如，自然语言输出)，并且在一个或多个会议计算设备处将相关数据输出(在方框408处)到所述多个参与者中的一个或多个参与者。

在方框410处，系统可以确定会议已经结束。如上所述，可以响应于来自参与者的明确命令(“OK Assistant,let's conclude the meeting(OK，助理，我们结束会议)”)，根据用户的话语推断得出(“This meeting is adjourned(本次会议休会)”)，也可以响应于其它用户输入(诸如点击正在用作会议计算设备的独立交互式扬声器的表面)而做出这种确定。响应于方框410的确定，在方框412处，系统可以将自动助理120设定成非会议模式，其中，自动助理在对各个口头话语执行语音到文本处理之前需要调用。

在方框414处，在一些实施方式中，系统可以例如基于由会议参与者在会议期间提供的多个话语的语义处理来生成会议纪要。如上所述，会议纪要可以包括诸如所讨论的主题、行动项目(创建、解决、修改等)、参与者和/或会议的部分或完整笔录等事物。在一些实施方式中，文字记录可以用如下方式来注释或以其它方式注释，所述方式不仅包括参与者的话语，还包括由自动助理120注入到会议中的任何信息。

图5是示例计算设备510的方框图，该示例计算设备可以以可选的方式被用于执行本文所述的技术的一个或多个方面。计算设备510通常包括至少一个处理器514，所述至少一个处理器514经由总线子系统512与多个外围设备进行通信。这些外围设备可以包括存储子系统524(例如，存储器子系统525和文件存储子系统526)、用户接口输出设备522、用户接口输入设备522以及网络接口子系统516。输入和输出设备允许用户与计算设备510交互。网络接口子系统516提供到外部网络的接口，并被耦合到其它计算设备中的相应接口设备。

用户接口输入设备522可以包括键盘，诸如鼠标、轨迹球、触摸板或图形输入板之类的指向设备，扫描仪、结合到显示器中的触摸屏，诸如语音识别系统、麦克风的音频输入设备，以及/或其它类型的输入设备。通常，术语“输入设备”的使用旨在包括将信息输入到计算设备510中或通信网络上的所有可能类型的设备和方式。

用户接口输出设备520可以包括显示子系统、打印机、传真机或诸如音频输出设备的非可视显示器。显示子系统可以包括阴极射线管显示器(CRT)，诸如液晶显示器(LCD)的平板设备，投影设备或用于产生可见图像的一些其它机构。显示子系统还可以诸如经由音频输出设备来提供非视觉显示器。通常，术语“输出设备”的使用旨在包括所有可能类型的设备以及从计算设备510向用户或向另一台机器或计算设备输出信息的方式。

存储子系统524存储提供本文所述的一些或所有模块的功能的程序和数据构造。例如，存储子系统524可以包括执行图4的方法的所选方面以及实现图1所描绘的各种组件的逻辑。

这些软件模块通常由处理器514单独或与其它处理器结合执行。在存储子系统524中使用的存储器525能够包括多个存储器，所述多个存储器包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)530，以及存储固定指令的只读存储器(ROM)532。文件存储子系统526能够为程序和数据文件提供持久存储，并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移动介质、CD-ROM驱动器、光盘驱动器或可移动介质盒。实施某些实施方式的功能的模块可以通过文件存储子系统526存储在存储子系统524中，或者存储在能够由一个或多个处理器514访问的其它机器中。

总线子系统512提供了一种机制，以使计算设备510的各个组件和子系统按预期的方式彼此通信。尽管总线子系统512被示意性地示出为单个总线，但是总线子系统的替代实施方式可以使用多个总线。

计算设备510能够是各种类型，所述类型包括工作站、服务器、计算集群、刀片服务器、服务器场或任何其它数据处理系统或计算设备。由于计算机和网络的不断变化的性质，图5中所描绘的对计算设备510的描述仅旨在作为用于说明一些实施方式的目的特定示例。与图5中所描绘的计算设备相比，计算设备510的许多其它配置可能具有更多或更少的组件。

在这里讨论的某些实施方式可以收集或使用关于用户的个人信息(例如，从其它电子通信中提取的用户数据、关于用户的社交网络的信息、用户的位置、用户的时间、用户的生物特征信息，以及用户的活动和人口统计信息、用户之间的关系等)的情况下，向用户提供一个或多个机会来控制是否收集信息、是否存储个人信息、是否使用个人信息以及如何使用收集、存储和使用有关用户的信息。即，仅在从相关用户接收到明确的授权后，本文讨论的系统和方法才收集、存储和/或使用用户的个人信息。

例如，向用户提供对程序或部件是否收集有关该特定用户或与程序或部件相关的其它用户的用户信息的控制。向待被收集其个人信息的每个用户提供一个或多个选项，以允许控制与该用户有关的信息收集，从而提供关于是否收集信息以及收集该信息的哪些部分的许可或授权。例如，能够通过通信网络向用户提供一个或多个这样的控制选项。另外，在存储或使用某些数据之前，可能会以一种或多种方式处理某些数据，使得移除个人身份信息。作为一个示例，可以处理用户的身份，使得不能确定个人身份信息。作为另一示例，用户的地理位置可以被概括为更大的区域，使得不能确定用户的特定位置。

尽管本文已经描述和示出了几种实施方式，但是可以利用用于执行功能和/或获得结果和/或本文所述的一个或多个优点的多种其它手段和/或结构，并且每个这样的变化和/或修改都被认为在本文描述的实施方式的范围内。更一般地，本文描述的所有参数、尺寸、材料和构造均是例证性的，并且实际参数、尺寸、材料和/或构造将取决于所使用的教导的一个或多个具体应用。本领域技术人员将认识到或能够仅使用常规实验确定本文所述的特定实施方式的许多等同形式。因此，应理解，前述实施方式仅以示例的方式给出，并且在所附权利要求书及其等同物的范围内，可以以不同于具体描述和要求保护的其它方式来实践这些实施方式。本公开的实施方式针对本文所述的每个单独的特征、系统、物品、材料、套件和/或方法。另外，如果这样的特征、系统、物品、材料、套件和/或方法不是相互矛盾的，则两个或更多个这样的特征、系统、物品、材料、套件和/或方法的任意组合被包括在本公开的范围内。

Claims

1.一种由一个或多个处理器实现的方法，所述方法包括：

将至少部分在一个或多个会议计算设备上实现的自动助理设定成会议模式，在所述会议模式中，所述自动助理对在多个参与者之间的对话期间交换的多个不同的口头话语执行语音到文本处理，而无需在所述多个不同的口头话语中的每一个口头话语之前明确调用所述自动助理；

由所述自动助理对从所述多个不同口头话语中的一个或多个口头话语的所述语音到文本处理而生成的第一文本自动执行语义处理，其中在没有明确参与者调用的情况下执行所述语义处理；

由所述自动助理基于所述语义处理来生成与所述第一文本有关的数据；

由所述自动助理从所述对话中监视暂停；

在所述自动助理处于会议模式时，响应于基于所述监视检测到所述对话中的暂停，在所述会议计算设备中的一个或多个会议计算设备处将与所述第一文本有关的所述数据以听觉方式输出给所述多个参与者；

响应于确定在所述暂停被检测到之前一个或多个标准被满足，避免以听觉方式输出与所述第一文本有关的所述数据。

2.根据权利要求1所述的方法，还包括：响应于确定在所述暂停被检测到之前所述一个或多个标准被满足，在所述多个参与者中的至少一个参与者可访问的显示器上以视觉方式输出与所述第一文本有关的所述数据。

3.根据权利要求1所述的方法，其中，所述一个或多个标准包括自所述多个不同的口头话语中的一个或多个以来的预定时间间隔的流逝。

4.根据权利要求1所述的方法，其中，所述一个或多个标准包括检测所述对话的新主题。

5.根据权利要求1所述的方法，其中，所述一个或多个标准包括检测所述对话的上下文中的改变。

6.根据权利要求1所述的方法，其中，所述避免包括丢弃与所述第一文本有关的所述数据。

7.根据权利要求1所述的方法，还包括：响应于确定在所述暂停被检测到之前所述一个或多个标准被满足，在所述对话的结束之后输出所述数据。

8.一种包括一个或多个处理器和存储指令的存储器的系统，所述指令在由所述一个或多个处理器执行时，使所述一个或多个处理器执行操作，所述操作包括：

由所述自动助理从所述对话中监视暂停；

在所述自动助理处于会议模式时，响应于检测到所述对话中的暂停，在所述会议计算设备中的一个或多个会议计算设备处将与所述第一文本有关的所述数据以听觉方式输出给所述多个参与者；

9.根据权利要求8所述的系统，其中，所述操作还包括：响应于确定在所述暂停被检测到之前所述一个或多个标准被满足，在所述多个参与者中的至少一个参与者可访问的显示器上以视觉方式输出与所述第一文本有关的所述数据。

10.根据权利要求8所述的系统，其中，所述一个或多个标准包括自所述多个不同的口头话语中的一个或多个以来的预定时间间隔的流逝。

11.根据权利要求8所述的系统，其中，所述一个或多个标准包括检测所述对话的新主题。

12.根据权利要求8所述的系统，其中，所述一个或多个标准包括检测所述对话的上下文中的改变。

13.根据权利要求8所述的系统，其中，所述避免包括丢弃与所述第一文本有关的所述数据。

14.根据权利要求8所述的系统，其中所述操作还包括：响应于确定在所述暂停被检测到之前所述一个或多个标准被满足，在所述对话的结束之后输出所述数据。

15.至少一个包括指令的非暂时性计算机可读介质，所述指令在由一个或多个处理器执行时，使所述一个或多个处理器执行操作，所述操作包括：

由所述自动助理从所述对话中监视暂停；

16.根据权利要求15所述的至少一个非暂时性计算机可读介质，其中所述操作还包括：响应于确定在所述暂停被检测到之前所述一个或多个标准被满足，在所述多个参与者中的至少一个参与者可访问的显示器上以视觉方式输出与所述第一文本有关的所述数据。

17.根据权利要求15所述的至少一个非暂时性计算机可读介质，其中，所述一个或多个标准包括自所述多个不同的口头话语中的一个或多个以来的预定时间间隔的流逝。

18.根据权利要求15所述的至少一个非暂时性计算机可读介质，其中，所述一个或多个标准包括检测所述对话的新主题。

19.根据权利要求15所述的至少一个非暂时性计算机可读介质，其中，所述一个或多个标准包括检测所述对话的上下文中的改变。

20.根据权利要求15所述的至少一个非暂时性计算机可读介质，其中，所述避免包括丢弃与所述第一文本有关的所述数据。