CN116348844A

CN116348844A - 布置和/或清除语音到文本的内容而无需用户提供明确指令

Info

Publication number: CN116348844A
Application number: CN202180068837.8A
Authority: CN
Inventors: 维克托·克尔布内; 克里希南·萨普科塔; 贝沙德·贝扎迪; 朱莉娅·普罗斯库尔尼亚; 雅各布·圣纳扎罗·纳塔; 贾斯汀·路; 马加利·布瓦佐-罗什; 马里乌斯·绍伊加里克; 尼科洛·德赫科莱; 扎希德·萨布尔; 卢夫·科塔里
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2021-05-17
Filing date: 2021-12-10
Publication date: 2023-06-27
Also published as: EP4147232A1; WO2022245396A1

Abstract

本文所描述的实现方式涉及一种应用和/或自动化助理，其可以识别在语音到文本操作期间为布置文本而要执行的布置操作——而无需用户必需明确识别布置操作。在一些实例中，口述文档(例如，电子邮件、文本消息等)的用户可以向应用提供口头话语，以便并入文本内容。然而，在一些实例中，文档中的文本内容需要某些对应的布置。从口头话语中得出的文本内容可以由应用基于与该口头话语相关联的意图、发声特征和/或场境特征和/或与文档相关联的应用类型来布置，而无需用户明确识别对应的布置。以此方式，应用可以从仅指定文本内容的口头话语中推断内容布置操作。

Description

布置和/或清除语音到文本的内容而无需用户提供明确指令

背景技术

人类可以使用交互式软件应用来参与人机对话对话，该交互式软件应用在本文中称作“自动化助理”(也称作“聊天机器人”、“交互式个人助理”、“智能个人助理”、“个人话音助理”、“对话智能体”等)。自动化助理通常依赖于组件流水线来解释和响应于用户输入。例如，语音处理引擎可以用于处理捕捉用户的口头话语的音频数据，并生成文本上下文，诸如口头话语的转录(即，词项和/或其他词元的序列)。此外，可以使用自然语言理解(NLU)引擎来处理文本内容，并生成NLU输出，诸如用户在提供口头话语时的意图以及任选地与该意图相关联的参数的槽值。

在一些情况下，用户可使用自动化助理和/或自动化助理可访问的软件应用(也简称为“应用”)，使用语音处理引擎来执行某些语音到文本的操作。例如，用户可以使用自动化助理和/或应用来代表用户口述文本内容，并且该文本内容可以被并入到文档中(例如，文字处理文档、电子邮件、文本消息等)。然而，在文本内容被并入到文档中之后，用户通常必须用布置操作来手动操纵文本内容，以便用期望的布置(即，间距、标点、大写、缩进等)对文本内容进行格式化。例如，用户可以提供附加的口头话语来执行这些布置操作中的一些，诸如提供“comma(逗号)”的口头命令以将逗号添加到文档中，“new line(新行)”以开始文档的新行，“indent(缩进)”以将缩进添加到文档中等，和/或经由分立的键盘或计算机鼠标接口提供类似的布置操作命令。

此外，在这些情况中的一些情况下，用户可以提供“clear(清除)”或“delete(删除)”的口头命令，以便消除已经并入在文档中的文本内容的一部分。然而，可能不会立即清楚用户希望从文档中消除哪些文本内容。因此，每当用户提供这些口头命令中的一者时，应用可以消除某一标准长度的文本。例如，每当用户提供这些口头命令中的一者时，应用可以仅删除单个字母或词，而不管与文档或包括口头命令的口头话语相关联的任何上下文。因此，当选择要删除的特定文本内容时，用户可以再次依赖于其他分立的接口，诸如键盘或计算机鼠标，而不是音频接口。结果，基于用户必须提供这些特定的口头命令来实现期望的布置、基于对文本内容的后续手动操纵和/或基于用户在这些分立的接口之间切换，用于在口述要被并入到文档中的文本内容时执行这些语音到文本操作的设备的计算资源可能被浪费和/或与自动化助理和/或应用的交互可能被延长。

发明内容

本文阐述的实现方式涉及一种可以响应于从用户接收到口头话语而执行语音到文本操作的自动化助理和/或应用，所述操作涉及以用户可能未明确详述的方式组织对应于口头话语的文本内容。以此方式，用户可以使用自动化助理和/或应用来进行语音到文本的操作，而不必明确地识别应该被执行来渲染文本内容的期望布置的每个操作。例如，用户可以向自动化助理提供口头话语，以使自动化助理执行语音到文本的操作来促进起草电子邮件邀请。当用户正在访问电子邮件应用时并且在用户已经初始化了自动化助理以用于检测将被转换成将被并入到电子邮件应用的字段中的文本内容的语音之后，可以提供口头话语。例如，当用户已经初始化音频接口以用于与自动化助理通信时，用户可以提供口头话语，诸如“Hi Adam…Friendly follow up to send me those meeting notes.Take care,Ronald(嗨，亚当…友好地跟进，把那些会议记录发给我。保重，罗纳德)”。尽管用户没有明确地识别任何格式化、标点符号、大写和/或用于如口头话语中所示布置文本内容的其他指引，但是自动化助理可以生成内容布置数据，该内容布置数据表征要包括在电子邮件应用的字段中的文本内容的布置，并且用于指引电子邮件应用根据该布置来布置文本内容。

在各种实现方式中，响应于接收到口头话语，自动化助理可以使用语音处理引擎来处理对应于口头话语的音频数据，以生成表征将被并入到应用的文档(例如，文字处理文档、电子邮件、文本消息等)的字段中的文本内容的文本内容数据。此外，自动化助理可以确定用户在起草文档时的意图，以生成表征文档的字段内的用于将文本内容并入到文档的字段中的布置的内容布置数据。内容布置数据可以识别应用要执行的一个或多个操作，以便根据布置并基于来自用户的口头话语来布置文本内容。

在这些实现方式的一些版本中，可以基于口头话语来确定用户起草文档的意图。例如，可以使用一个或多个启发式过程和/或一个或多个经训练的机器学习模型(例如，自然语言理解(NLU)模型)来处理对应于口头话语的音频数据和/或基于口头话语生成的文本内容，并且可以基于使用一个或多个启发式过程和/或一个或多个经训练的机器学习模型生成的输出来确定该用户的意图。例如，假设用户提供口头话语“Assistant,email Adam‘Hi Adam…Friendly follow up to send me those meeting notes.Take care,Ronald’(助理，给亚当发邮件“嗨，亚当…友好地跟进，把那些会议记录发给我。保重，罗纳德”)”。在这种情况下，自动化助理可以基于该处理来确定用户正打算使用电子邮件应用来起草电子邮件文档，该电子邮件应用可以体现指示该电子邮件文档的一个或多个第一格式化特征，即使用户没有明确地识别这些操作。一个或多个第一格式化特征可以包括例如文本内容中问候之后的逗号(例如，“Hi Adam,(嗨，亚当，)”)，逗号之后的一个或多个新段落行或回车，一个或多个句号(例如，“notes(记录)”之后)，结束语之前的一个或多个新段落行或回车(例如，“Take care,Ronald(保重，罗纳德)”)，结束语之后的签名块等。在这些实现方式的一些版本中，这些第一格式化特征可以基于用户与自动化助理之间经由电子邮件应用的先前交互和/或一个或多个其他用户与一个或多个其他设备之间经由相应的电子邮件应用的先前交互来识别。

相比之下，假设用户提供了口头话语“Assistant,text Adam‘Hi Adam…Friendlyfollow up to send me those meeting notes.Take care,Ronald’(助理，给亚当发短信“嗨，亚当…友好地跟进，把那些会议记录发给我。保重，罗纳德”)”。在这种情况下，自动化助理可以基于该处理来确定用户正打算使用文本消息应用来起草文本消息文档，该文本消息应用可以体现指示文本消息文档的一个或多个第二格式化特征，即使用户没有明确地识别这些操作，并且该第二格式化特征不同于指示上述电子邮件文档的一个或多个第一格式化特征。一个或多个第二格式化特征还可以包括例如第一格式化特征的一个或多个标点特征，诸如文本内容中问候之后的逗号(例如，“Hi Adam,”)和一个或多个句号(例如，“notes”之后)。然而，第二格式化特征可以另外地或替代地包括不同于第一格式化特征的一个或多个第二标点特征。例如，可以在问候之后提供句号代替逗号(例如，“Hi Adam.(嗨，亚当。)”)，并且在“notes”之后可以省略句号，取而代之的是，在“notes”之后提供一个长破折号或者不提供标点符号。此外，一个或多个第二格式化特征可以不包括逗号之后的一个或多个新段落行或回车、结束语(例如，“Take care,Ronald”)之前的一个或多个新段落行或回车，或者结束语之后的签名块，因为文本消息文档更不正式。类似地，在这些实现方式的一些版本中，这些第二格式化特征可以基于用户与自动化助理之间经由文本消息应用的先前交互和/或一个或多个其他用户与一个或多个其他设备之间经由相应的文本消息应用的先前交互来识别。例如，经由文本消息应用的先前交互可以指示问候最经常(或总是)后跟句号而不是逗号，并且可以基于此类先前交互在问候之后提供句号(例如，“Hi Adam.”)。

在这些实现方式的附加或替代版本中，可以基于在其中用户初始化用于与自动化助理通信的音频接口的应用的类型来确定用户起草文档的意图。例如，假设用户在从电子邮件应用初始化音频接口之后提供了口头话语“Hi Adam…Friendly follow up to sendme those meeting notes.Take care,Ronald”。在此示例中，自动化助理可以生成指示上述电子邮件文档的一个或多个第一格式化特征，即使用户没有明确识别这些操作。相比之下，假设用户在从文本消息应用初始化音频接口之后提供了口头话语“Hi Adam…Friendlyfollow up to send me those meeting notes.Take care,Ronald”。在此示例中，自动化助理可以生成指示上述文本消息文档的一个或多个第二格式化特征，即使用户没有明确识别这些操作。在那些实现方式的一些版本中，即使用户没有在口头话语中明确地识别该结束语，也可以基于应用的类型(例如，当应用是电子邮件应用时)将该结束语自动并入到文档中，而在那些实现方式的其他版本中，可以基于应用的类型(例如，当应用是文本消息应用时)省略该结束语。

在一些实现方式中，在用户话语中指示的和/或用户初始化音频接口的应用，可以另外地或替代地用于确定一个或多个格式化特征。例如，假设用户在给定应用中初始化自动化助理之后提供了口头话语“Hi Catherine Jane wanted to let you know thatswordfish is delayed two weeks(嗨凯瑟琳简想让你知道剑鱼延迟两周)”。在第一情景下，假设由给定应用提供的和/或以其他方式与给定应用相关联的数据指示用户的联系人是“Catherine Jane(凯瑟琳简)”并且用户缺少“Catherine(凯瑟琳)”(没有“Jane(简)”)联系人并且缺少“Jane”联系人，并且还指示“swordfish(剑鱼)”是正经由该应用被跟踪的已定义物项。在第一情景下，可以在“Catherine Jane”之后紧接着插入逗号，在逗号之后包括回车，并且“Swordfish”可以大写(即，格式化将揭示该消息是发给“Catherine Jane”的，并且发送用户正指示Swordfish物项将被推迟)。在第二情景下，假设由给定应用提供的和/或以其他方式与给定应用相关联的数据指示用户的联系人包括“Catherine”(没有“Jane”)和“Jane”(前面没有“Catherine”)，并且还缺少“swordfish”是应用的已定义物项或其他已定义实体的任何指示。在第二情景下，可以在“Catherine”之后插入逗号，在逗号之后包括回车，并且“swordfish”将不被大写(即，格式化将揭示该消息是发给“Catherine”的，并且“Jane”已经指示swordfish(例如，鱼的装运)被延迟)。

在各种实现方式中，内容布置数据可以另外地或替代地基于与口头话语相关联的一个或多个其他信号来生成。例如，内容布置数据可以另外地或替代地基于口头话语的一个或多个声学(或发声)特征来生成，这些声学(或发声)特征是基于使用一个或多个启发式过程和/或一个或多个训练的基于声学的机器学习模型来处理捕捉口头话语的音频数据而确定的。这些声学特征可以包括，例如，口头话语的一个或多个韵律属性，诸如语调、语气、重音、节奏、拍子和/或停顿。例如，口头话语中的一个或多个停顿(例如，如口头话语“HiAdam…Friendly follow up to send me those meeting notes.Take care,Ronald”中的省略号所示)可以指示用户希望在问候(例如，“Hi Adam”)之后插入逗号和/或用户希望在问候之后插入一个或多个新段落行或回车。此外，例如，口头话语的语气可以指示用户期望传达专业的语气，并且因此，签名块可以被插入在结束语(例如，“Take care,Ronald”)之后。

在一些实现方式中，即使用户可能没有具体描述要执行的每一操作，修改已被并入到文档中的文本内容的操作也可以由自动化助理响应于来自用户的请求来执行。例如，如果用户希望从文档中消除文本内容，则用户可以经由口头话语描述要消除的文本内容。然而，用户更可能简单地提供口头话语，诸如“delete(删除)”、“clear(清除)”或“backspace(退格)”，这在不同的情况下可能具有不同的含义。响应于接收到消除一些文本内容的命令，自动化助理可以基于用户先前提供文本内容和/或口头话语的场境来确定要从文本内容中消除的内容量。该确定可以另外地或替代地基于用户与自动化助理、用户与另一应用、和/或一个或多个其他用户和/或一个或多个其他计算设备之间经由相应应用的一个或多个先前交互。

例如，基于其中用户叙述专有名称的个别字符(例如，“C、H、A、N、C…”)的先前口头话语，自动化助理可以确定，当用户提供后续“clear”命令时，该后续“clear”命令旨在从用户叙述了单个字符的专有名称中仅消除单个字符(例如，“C”)。此外，当用户提供进一步的后续“clear”命令时，自动化助理可以确定该进一步的后续“clear”命令旨在从用户叙述了单个字符的专有名称中仅消除前一单个字符(例如，“N”)。相比之下，基于用户逐词叙述内容的先前口头话语(例如，“We look forward to…(我们期待…)”)，自动化助理可以确定当用户提供后续的“clear”命令时，该“clear”旨在消除最近并入到应用字段中的单个词(例如，“to”)或指代单个实体的单个词序列(例如，“soap opera(肥皂剧)”、“New York(纽约)”)。此外，当用户提供进一步的后续“clear”命令时，自动化助理可以确定该进一步的后续“clear”命令旨在从被并入该应用的字段中仅消除前一单个词(例如，“forward(期待)”)。

在一些实现方式中，可以响应于“clear”命令，删除指代单个实体的多于单个词或多于单个词序列。在这些实现方式中的一些中，确定消除指代单个实体的多于单个词或多于单个词序列可以基于被消除词的特征和/或完成导致被消除词的话语与说出“clear”命令之间的时间量。被消除的词的特征可以包括例如词的语音辨识置信度分数，它们是否在语音辨识词汇表和/或应用词汇表中，和/或它们对于用户(以及任选地场境)是否是典型的。作为示例，如果最后三个词的语音辨识置信度分数不满足阈值(但是在这最后三个词之前的词具有满足阈值的语音辨识置信度分数)，并且“clear”命令是在完成说出导致转录这三个词的话语的30毫秒内提供的，则“clear”命令可以消除所有三个词。另一方面，如果最后一个词的语音辨识置信度分数未能满足阈值(但是最后一个词之前的词具有满足阈值的语音辨识置信度分数)和/或在完成说出话语500毫秒之后提供了“clear”命令，则“clear”命令可以仅消除最后一个词。

在各种实现方式中，指示期望从文档中消除文本内容的连续命令可以逐渐导致更多的文本内容被消除。例如，假设文本内容包括在电子邮件文档中，该电子邮件文档包括用户使用逐词模式口述的三个段落。在此示例中,“clear”命令的第一实例可以导致从电子邮件中消除最近并入的词(例如，第三段落中的最后一个词)。此外,“clear”命令的第二实例可以导致从电子邮件中消除最近并入的词组或句子(例如，第三段落中的最后一句)。此外,“clear”命令的第三实例可以导致从电子邮件中消除最近并入的句子组或段落(例如，第三段落)。因此，对于命令的每一连续实例，要从文档中消除的内容量的长度可以增加。

通过使用本文描述的技术，可以实现各种技术优势。作为一个非限制性示例，本文描述的技术使得自动化助理和/或自动化助理可访问的应用能够根据场境来对要包括在基于用户的口头话语生成的文档中的文本内容进行格式化，而无需用户必需明确地指定如何对文本内容进行格式化。结果，可以减少用户与自动化助理之间的人机对话的持续时间，可以减少包括明确指定如何对文本内容进行格式化的命令的用户输入的数量，并且可以减少用户在接口之间切换的发生数量，和/或可以减少人机对话之后用户和文档的手动编辑的数量，从而节省在执行人机对话中利用的客户端设备处的计算资源，和/或在自动化助理和/或应用至少部分地由一个或多个远程系统执行的实现方式中节省网络资源。

提供以上描述作为本公开的一些实现方式的概述。下文更详细地描述那些实现方式和其他实现方式的进一步描述。

附图说明

图1A、图1B、图1C和图1D示出了用户向应用提供口头话语的视图，该应用可以基于口头话语来生成文本内容数据和布置数据。

图2示出了提供自动化助理和/或应用的系统，该系统可以布置文本内容以促进完成语音到文本操作，而无需用户必需明确地识别布置操作。

图3示出了用于操作应用和/或自动化助理以根据可能未在来自用户的输入中明确识别的布置将文本内容并入到文本字段中的方法。

图4是示例性计算机系统的框图。

具体实施方式

图1A、图1B、图1C和图1D分别示出了用户102向应用提供口头话语的视图100、视图120、视图140和视图160，该应用可以基于口头话语生成文本内容数据和布置数据。可以处理文本内容数据和布置数据，以便根据布置数据将自然语言内容并入到文本字段114中。在一些实现方式中，该应用可以是自动化助理应用和/或能够从用户接收口头输入的任选地利用自动化助理的能力的任何其他应用。可替代地或附加地，应用(例如，第一应用)可以与附加应用(例如，第二应用)交互，以便为附加应用的文本字段114生成内容。例如，用户102可以提供口头话语106，诸如“Hi Adam...Where will we be meeting today？...Pleaselet me know when you can...Thank you...William(嗨亚当…我们今天会在哪里见面？...请告诉我什么时候可以...谢谢...威廉)”。在用户102已经由调用手势或按钮(例如，软件按钮或硬件按钮)初始化该应用的话音输入特征和/或向应用提供调用自动化助理的调用命令(例如，“Hey,Assistant.(嘿，助理。)”)之后，可以任选地提供口头话语106。

响应于在计算设备104处接收到口头话语106，计算设备104和/或应用可以生成对应于口头话语106的音频数据108(例如，经由计算设备104的麦克风)。在一些实现方式中，可以处理音频数据108(例如，使用一个或多个启发式过程和/或一个或多个训练的机器学习模型(例如，NLU模型))，以确定要执行的一个或多个意图和/或操作，以便该应用响应于口头话语106。例如，基于处理音频数据108确定的一个或多个意图可以提供用于生成布置数据110的基础，布置数据110可以表征响应于口头话语106应该执行的一个或多个格式化操作。一个或多个意图可以附加地或可替代地基于其中调用自动化助理的应用来确定。还可以处理音频数据108(例如，使用参考图2描述的语音处理引擎208)以提供用于生成文本内容数据112的基础，该文本内容数据112可以表征响应于口头话语应该被并入到应用或附加应用的文本字段114中的文本内容。

使用文本内容数据112，如图1B的视图120所示，应用可以识别要被并入到附加应用(例如，电子邮件应用)的文本字段114中的文本内容122。文本内容122可以对应于包含用户所提供的口头话语106的自然语言内容。使用布置数据110，如图1C的视图140中所示，应用可以识别布置命令142(例如，回车、ANSI代码、ASCII代码、ISO代码、HTML、JavaScript等)，以供应用、附加应用和/或计算设备104针对并入到文本字段114中的文本内容122来执行和/或实现。执行此类布置命令142可以使得布置的文本内容162在文本字段114中被渲染，如图1D的视图160所示。

在一些实现方式中，音频数据108和/或任何其他数据可以用作执行某些操作和/或意图的基础，以便在文本字段114中渲染布置的文本内容162。例如，如图1A所示，对应于文本内容122的音频数据108的部分之间的持续时间可以用作布置命令142的基础。可以使用例如端点机器学习模型来确定音频数据108的各部分之间的持续时间，该端点机器学习模型被训练来检测口头话语106的开始、口头话语106中的停顿和/或口头话语106的结束。例如，命令串(例如，两个回车)可以被并入到文本内容的两部分之间的布置的文本内容162中。在一些实现方式中，可以基于口头输入(例如，口头话语106)的第一部分118A和口头输入的第二部分118B之间的语音中断116的持续时间来识别命令串。在附加或替代实现方式中，可以基于所确定的与口头话语106相关联的一个或多个意图来识别命令串。当命令串包括一个或多个“new line”命令、“new bullet point(新着重号)”命令和/或“new listitem(新列表项)”命令时，对应于口头输入的第一部分118A的文本的垂直位置可以不同于该口头输入的第二部分118B的不同垂直位置。

可替代地或附加地，用于布置文本内容的一个或多个命令可以基于以下来识别：包括文本字段114的附加应用、提供文本字段114的应用的类型、正在起草的文档的类型、附加应用和/或计算设备104的状态、和/或该应用可用的任何其他信息。例如，当附加应用被确定为电子邮件应用和/或文字处理应用时，可以生成布置数据110，使得逗号和一个或多个回车可以被并入在短语“Thank you(谢谢)”和姓名“William(威廉)”之间。可替代地或附加地，当附加应用被确定为文本消息应用时，可以生成布置数据110，使得逗号和空格分隔短语“Thank you(谢谢)”和姓名“William(威廉)”。逗号可以在任一情况下被并入，而无需用户102明确叙述标点的使用。例如，即使用户102可能在他们的口头话语106中明确地叙述“Thank you William(谢谢威廉)”而没有明确地说出词“comma(逗号)”或其他格式化命令，该应用也可以生成布置数据110和/或文本内容数据112以在短语“Thank you(谢谢)”和“William(威廉)”之间并入逗号和回车。

在一些实现方式中，布置数据110的生成可以基于启发式过程和/或一个或多个经训练的机器学习模型来生成。例如，可以使用一个或多个经训练的机器学习模型来处理文本内容的一个或多个部分，以便生成文本内容的低维表示，诸如文本内容中包括的一个或多个词项或短语的嵌入或word2vec表示。这些低维表示可以映射到嵌入空间或另一潜在空间。当映射嵌入被确定为在嵌入空间或潜在空间中距对应于其他词项和/或短语的一个或多个其他先前映射嵌入有阈值距离时，对应于其他词项和/或短语的一个或多个其他先前映射嵌入的布置操作和/或格式化指令可以被识别为文本内容的那些一个或多个部分的布置数据110和/或格式化指令。值得注意的是，这些低维表示可以专用于与口头话语和/或文本内容所并入到的应用类型相关联的意图。例如，如果文本内容将被并入到电子邮件中，则用于问候的第一布置数据可以被确定为用于问候的布置数据110，而如果文本内容将被并入到文本消息中，则用于同一问候的第二布置数据可以被确定为用于问候的布置数据110。

在这些实现方式的一些版本中，可以生成用于训练一个或多个经训练的机器学习模型的训练数据，以及在用户102的许可下，用户102如何为每一相应的应用和文本内容布置某些文本内容。例如，训练数据的每一实例可以包括训练实例输入和训练实例输出。对于这些训练实例中的每一者，训练实例输入可以包括例如一个或多个文本片段和/或一个或多个文本片段被并入到其中的应用的指示，并且训练实例输出可以包括用于训练实例输入中包括的文本内容的那些一个或多个部分的对应布置操作和/或格式化指令。训练实例输入可以被应用为跨一个或多个机器学习模型的输入，以生成指示训练实例输入中包括的文本内容的那些一个或多个部分的预测布置操作和/或格式化指令的预测输出。可以将文本内容的那些一个或多个部分的预测布置操作和/或格式化指令与训练实例输出进行比较，以生成一个或多个损失，并且可以基于损失中的一个或多个来更新机器学习模型中的一个或多个。因此，在推断时，当生成布置数据110时，一个或多个经训练的机器学习模型可以用于对文本部分的某些布置操作和/或格式化操作进行加权超过其他布置操作。以此方式，当响应于口头话语106执行布置数据110时，涉及用户102的历史交互可以是应用在文本字段114中布置文本内容的基础。机器学习模型的训练可以包括例如机器学习模型的设备上训练和个性化(无需离开相应设备的训练数据的实例)和/或可以包括经由联合学习框架的训练，其中基于训练数据的实例在客户端设备上本地生成梯度，并且仅将梯度发送到远程服务器(无需离开相应设备的训练数据的实例)用于机器学习模型的训练。训练数据的实例可以包括具有基于(例如，经由虚拟或硬件键盘)键入的文本片段的文本片段的训练实例输入的那些实例，和/或具有基于口头话语的转录的文本片段的训练实例输入的那些实例。训练数据的实例可以包括例如具有训练实例输出的那些实例，该训练实例输出基于经由话音或其他手段(例如，经由虚拟或硬件键盘)对格式化的手动校正。基于手动校正的训练实例输出可以指示对应的用户发现对应的最终格式化是可接受的。

图2示出了提供自动化助理204和/或应用的系统200，该系统200可以布置文本内容以促进完成语音到文本操作，而无需用户明确地识别布置操作。自动化助理204可以作为在诸如计算设备202和/或服务器设备等一个或多个计算设备处提供的助理应用的一部分来操作。用户可以经由助理接口220与自动化助理204交互，该助理接口可以是麦克风、摄像机、触摸屏显示器、用户接口和/或能够提供用户与应用之间的接口的任何其他装置。例如，用户可以通过向助理接口220提供口头、文本和/或图形输入来使得自动化助理204初始化一个或多个动作(例如，提供数据、控制外围设备、访问智能体、生成输入和/或输出等)。

可替代地，自动化助理204可以使用一个或多个经训练的机器学习模型基于对场境数据236的处理来初始化。场境数据236可以表征自动化助理204可在其中访问的环境的一个或多个特征，和/或被预测为想要与自动化助理204交互的用户的一个或多个特征。计算设备202可以包括显示设备，该显示设备可以是包括触摸接口的显示面板，该触摸接口用于接收触摸输入和/或手势，以允许用户经由触摸接口控制计算设备202的应用234。在一些实现方式中，计算设备202可能没有显示设备，从而提供可听用户接口输出，而无需提供图形用户接口输出。此外，计算设备202可以提供诸如麦克风的用户接口，用于接收来自用户的口头自然语言输入。在一些实现方式中，计算设备202可以包括触摸接口，并且可以没有摄像机，但是可以任选地包括一个或多个其他传感器。

计算设备202和/或其他客户端设备可以通过诸如因特网的广域网(WAN)来与服务器设备通信。此外，计算设备202和任何其他计算设备可以通过诸如Wi-Fi网络的局域网(LAN)来相互通信。计算设备202可以将计算任务卸载到服务器设备，以便节省计算设备202处的计算资源。例如，服务器设备可以托管自动化助理204，和/或计算设备202可以向服务器设备传输在一个或多个助理接口220处接收的输入。然而，在一些实现方式中，自动化助理204可以被托管在计算设备202处，并且可以与自动化助理操作相关联的各种过程可以在计算设备202处本地执行。

在各种实现方式中，自动化助理204的所有方面或少于所有方面可以在计算设备202上实现。在这些实现方式中的一些中，自动化助理204的各方面经由计算设备202来实现，并且可以与服务器设备对接，该服务器设备可以实现自动化助理204的其他方面。服务器设备可以任选地经由多个线程为多个用户及其相关联的助理应用服务。在自动化助理204的所有或少于所有方面经由计算设备202实现的实现方式中，自动化助理204可以是与计算设备202的操作系统分离的应用(例如，安装在操作系统的“顶部”)——或者可替代地直接由计算设备202的操作系统实现(例如，被认为是操作系统的应用，但与操作系统集成在一起)。

在一些实现方式中，自动化助理204可以包括输入处理引擎206，该引擎可以使用多个不同的模块来处理计算设备202和/或服务器设备的输入和/或输出。例如，输入处理引擎206可以包括语音处理引擎208，其可以处理在助理接口220处接收的音频数据，以识别音频数据中体现的文本内容。音频数据可以从例如计算设备202传输到服务器设备，以便保留计算设备202处的计算资源，并且可以从服务器设备接收文本内容。另外或替代地，音频数据可以在计算设备202处被专门处理以识别文本内容。

用于将音频数据转换成文本内容的过程可以包括使用语音辨识算法来处理音频数据，该算法可以使用神经网络和/或统计模型来识别对应于词或短语的音频数据组。从音频数据转换的文本可以由数据剖析引擎210剖析，并且作为可以用于生成和/或识别命令短语、意图、动作、槽值和/或用户指定的任何其他内容的文本数据对自动化助理204可用。在一些实现方式中，由数据剖析引擎210生成的输出数据可以被提供给参数引擎212，以确定用户是否提供了对应于能够由自动化助理204和/或能够经由自动化助理204访问的应用或智能体执行的特定意图、动作和/或例程的输入。例如，助理数据238可以存储在服务器设备和/或计算设备202处，并且可以包括定义能够由自动化助理204执行的一个或多个动作的数据，以及执行这些动作所必需的参数。参数引擎212可以生成用于意图、动作和/或槽值的一个或多个参数，并将该一个或多个参数提供给输出生成引擎214。输出生成引擎214可以使用一个或多个参数来与助理接口220通信以提供呈现给用户的输出，和/或与一个或多个应用234通信以提供经由一个或多个应用234呈现给用户的输出。

在一些实现方式中，自动化助理204可以是可安装在计算设备202的操作系统“顶部”的应用和/或其本身可以形成计算设备202的操作系统的一部分(或全部)。自动化助理应用包括和/或可以访问设备上语音辨识、设备上NLU和设备上履行。例如，可以使用设备上语音辨识模块来执行设备上语音辨识，该设备上语音辨识模块使用本地存储在计算设备202处的端到端语音辨识机器学习模型来处理音频数据(由麦克风检测)。设备上语音辨识为音频数据中存在的口头话语(如果有的话)生成辨识的文本内容。而且，例如，可以使用设备上NLU模块(或数据剖析引擎210)来执行设备上NLU，该设备上NLU模块处理使用设备上语音辨识而生成的辨识文本以及任选地场境数据，以生成NLU数据。

NLU数据可以包括对应于口头话语的意图和任选地用于该意图的参数(例如，槽值)。可以使用设备上履行模块来执行设备上履行，该设备上履行模块使用NLU数据(来自设备上NLU)以及任选地其他本地数据来确定要采取的动作以解析口头话语的意图(以及任选地该意图的参数)。这可以包括确定对口头话语的本地和/或远程响应(例如，回答)、基于口头话语执行的与本地安装的应用的交互、基于口头话语向物联网(IoT)设备(直接或经由对应的远程系统)传输的命令、和/或基于口头话语执行的其他解析动作。设备上履行然后可以发起所确定动作的本地和/或远程执行/实行，以解析口头话语。

在各种实现方式中，可以至少选择性地利用远程语音处理、远程NLU和/或远程履行。例如，辨识的文本内容可以至少选择性地被传输到远程自动化助理组件，用于远程NLU和/或远程履行。例如，辨识的文本内容可以任选地被传输用于与设备上执行并行地远程执行，或者响应于设备上NLU和/或设备上履行的失败而远程执行。然而，设备上语音处理、设备上NLU、设备上履行和/或设备上执行可以被优先化，至少是由于它们在解析口头话语时提供的时延减少(由于不需要客户端-服务器往返来解析口头话语)。此外，在没有网络连接性或网络连接性有限的情况下，设备上功能性可能是唯一可用的功能性。

在一些实现方式中，计算设备202可以包括一个或多个应用234，这些应用可以由不同于提供计算设备202和/或自动化助理204的实体的第三方实体来提供。自动化助理204和/或计算设备202的应用状态引擎可以访问应用数据230来确定能够由一个或多个应用234执行的一个或多个动作，以及一个或多个应用234的每一应用的状态和/或与计算设备202相关联的相应设备的状态。自动化助理204和/或计算设备202的设备状态引擎可以访问设备数据232来确定能够由计算设备202和/或与计算设备202相关联的一个或多个设备执行的一个或多个动作。此外，应用数据230和/或任何其他数据(例如，设备数据232)可以由自动化助理204访问以生成场境数据236，该场境数据可以表征特定应用234和/或设备正在其中执行的场境，和/或特定用户正在其中访问计算设备202、访问应用234和/或任何其他设备或模块的场境。

当一个或多个应用234正在计算设备202处执行时，设备数据232可以表征正在计算设备202处执行的每一应用234的当前操作状态。此外，应用数据230可以表征正在执行的应用234的一个或多个特征，诸如在一个或多个应用234的指引下渲染的一个或多个图形用户界面的内容。可替代地或附加地，应用数据230可以表征动作模式，该动作模式可以由相应应用和/或自动化助理204基于相应应用的当前操作状态来更新。可替代地或附加地，一个或多个应用234的一个或多个动作模式可以保持静态，但是可以由应用状态引擎访问，以便确定合适的动作来经由自动化助理204进行初始化。

计算设备202还可以包括助理调用引擎222，该引擎可以使用一个或多个经训练的机器学习模型来处理应用数据230、设备数据232、场境数据236和/或计算设备202可访问的任何其他数据。助理调用引擎222可以处理该数据，以便确定是否等待用户明确地说出调用短语来调用自动化助理204，或者将该数据视为指示用户调用自动化助理的意图——代替需要用户明确地说出该调用短语。例如，可以使用训练数据的实例来训练一个或多个经训练的机器学习模型，该训练数据的实例是基于用户处于多个设备和/或应用展现各种操作状态的环境中的情景。

可以生成训练数据的实例，以便捕捉表征用户调用自动化助理的场境和用户不调用自动化助理的其他场境的训练数据。例如，当用户正在访问特定的文字处理应用、文本消息应用、电子邮件应用、社交媒体应用、任务应用、日历应用、提醒应用等时，用户可以调用他们的自动化助理来执行语音到文本操作。因此，当用户打开这些应用中的一者或多者时，一个或多个经训练的机器学习模型可以协助指示用户正打算调用他们的自动化助理。这样，用户可以向自动化助理提供口头话语以执行语音到文本的操作，而不必向自动化助理提供明确的调用命令。当根据训练数据的这些实例来训练一个或多个经训练的机器学习模型时，助理调用引擎222可以使得自动化助理204基于计算设备202的场境和/或环境的特征来检测或限制检测来自用户的口头调用短语。另外或替代地，助理调用引擎222可以使得自动化助理204基于计算设备202的场境和/或环境的特征来检测或限制检测来自用户的一个或多个助理命令。

在一些实现方式中，系统200可以包括应用检测引擎216，其可以任选地用于检测用户可能正在计算设备202处检测语音到文本操作的应用的类型。自动化助理204可以使用系统200可用的数据来检测应用的类型，以便确定应被实现用于语音到文本操作的文本的布置。例如，当应用的类型被确定为电子邮件应用时，系统200的文本布置引擎226可以生成用于以字母格式布置文本的回车数据和制表符数据。可替代地或附加地，当应用的类型被确定为任务应用时，系统200的文本布置引擎226可以生成用于以着重列表格式布置文本的着重数据。

在一些实现方式中，系统200可以包括文本内容引擎218和文本布置引擎226，用于响应于来自用户的口头话语，确定文本内容应该如何布置在一个或多个应用的一个或多个字段中。在一些实现方式中，可以识别口头话语的发声特征，以确定文本内容应该如何在应用的字段内布置。在附加或替代实现方式中，可以利用与口头话语相关联的意图来确定文本内容应该如何在应用的字段内布置。与口头话语相关联的意图可以基于对口头话语的处理(例如，使用如上所述的数据剖析引擎210来确定)和/或基于在调用自动化助理时正在利用的应用的类型来确定。可替代地或附加地，可以识别口头话语的发声特征，以供文本消除引擎224用于确定要从应用的字段中消除的文本内容的量。

在一些实现方式中，文本内容引擎218和文本布置引擎226可以基于发声特征来识别文本内容和布置命令以在应用的字段中使用。例如，用户说出的特定词或短语的语调特性可以指示该特定词或短语应该如何在字段内布置。在一些实现方式中，说出字母之间的时间量(例如，使用参考图1描述的端点机器学习模型来确定)可以指示用户想要发出首字母缩略词。因此，即使用户尚未明确识别首字母缩略词的标点或其他布置，自动化助理204也可以使用文本布置引擎226来基于语调特性而识别某些标点和/或布置数据。其后，如果用户提供删除某一量的文本内容的命令，则文本消除引擎224可以至少基于一个或多个先前提供的口头话语的这些发声特征来识别要消除的文本量。例如，在发出首字母缩略词之后提供命令“clear”的用户可以使自动化助理204从该字段中消除单个字符、标点符号和/或空格。然而，如果用户在说出词(例如，“Thank…(谢谢…)”)之后提供了命令“clear”，则自动化助理204可以选择要消除的词，而不是单个字符。

在一些实现方式中，用户可以向自动化助理204提供一系列相同或相似的命令，用于从应用的字段中消除文本内容。作为响应，自动化助理204可以为每一相应的命令消除不同长度的文本内容片段。例如，当用户通过向自动化助理204提供口头话语来起草信件时，用户可以经由口头话语提供“delete”命令来从信件中消除文本内容。作为响应，文本消除引擎224可以识别要从字段中消除的文本的第一片段的长度，并使得该文本片段被消除。如果用户提供删除命令的另一实例，则文本消除引擎224可以识别要从字段中消除的文本的第二片段的另一长度，并且第二片段可以比第一片段长。此外，如果用户经由口头话语提供删除命令的又一实例，则文本消除引擎224可以识别要从字段中消除的文本的第三片段的又一长度，并且第三片段可以比第一片段和第二片段更长。在一些实现方式中，第三片段可以比第一片段和第二片段的长度组合更长。

图3示出了用于操作应用和/或自动化助理以根据可能未在来自用户的输入中明确识别的布置将文本内容并入到文本字段中的方法300。方法300可以由一个或多个应用、设备和/或能够执行语音到文本操作的任何其他装置或模块来执行。方法300可以包括确定是否已经接收到将文本内容并入到文本字段中的请求的操作302。该请求可以体现在由用户提供给可经由计算设备访问的应用和/或自动化助理的口头话语中。在一些实现方式中，当用户正在访问正在计算设备的显示界面上渲染文本字段的附加应用时，可以提供请求。在其他实现方式中，可以提供请求，而无需用户访问任何附加应用。换句话说，该请求可以发起提供要包括在文本字段中的文本内容(例如，发起电子邮件、文本消息、待办事项等)。当确定用户已经提供了将文本内容并入到文本字段中的请求时，方法300可以从操作302前进到操作304。

例如，附加应用可以是用户经常用来创建购物单、待办事项和其他提醒的笔记应用。当附加应用在计算设备处打开时，用户可以通过提供诸如“Assistant”的调用短语来调用该应用以执行语音到文本。在该调用短语之后，用户可以提供要在文本字段中列出的项目，诸如“Three gallons of water,a roll of aluminum foil,and salt in a box(三加仑水、一卷铝箔和一盒盐)”。作为另一示例，用户可以简单地提供“start a new to-dolist(开始新的待办事项)”的口头话语，当检测到该话语时，使得自动化助理创建新的列表。此外，当用户向待办事项添加新条目时，每一条目可以在分立的行或分立的着重号处开始(并且任选地，无需用户必需明确地提供口头命令来这样做，诸如“next(下一个)”)。

操作304可以包括生成文本内容数据，用于将文本内容并入到应用的字段中。可以基于处理对应于来自用户的口头话语的音频数据来生成文本内容(例如，使用图2的语音处理引擎208)。文本内容数据可以表征要并入到应用的字段中的自然语言内容。在一些实现方式中，可以使用一个或多个经训练的机器学习模型来执行音频数据的处理，以便识别应当在应用的字段内被分组在一起和/或从应用的字段中被省略的词和/或短语。当文本内容已经被文本内容数据识别时，方法300可以从操作304进行到操作306。

操作306可以包括确定应用可用的数据是否为在附加应用的字段内布置文本内容提供了基础。当提供用于布置文本内容的基础的数据可用时，方法300可以从操作306进行到操作308。否则，方法300可以从操作306进行到操作310。操作310可以包括使得文本内容被并入到附加应用的文本字段中，并且操作可以进行到操作314。在下文描述操作314。操作308可以包括生成用于文本内容的内容布置数据。内容布置数据可以表征要执行的一个或多个操作和/或命令，以便根据用户的预测意图在文本字段内布置文本内容。

例如，在一些实现方式中，对应用可用的数据可以指示该应用是用户先前已经用来创建列表的笔记应用。基于该确定，应用和/或自动化助理可以处理音频数据和/或文本内容数据，以便识别文本内容内插入布置数据的定位。例如，可以处理音频数据和/或文本内容数据，以便识别应该通过一个或多个布置操作(例如，一个或多个回车)与文本内容的第二部分分离的文本内容的第一部分。在一些实现方式中，可以使用一个或多个启发式过程和/或一个或多个经训练的机器学习模型来处理音频数据和/或文本内容，以便识别一个或多个布置操作和/或在文本内容内的何处实现布置操作。

例如，可以使用训练数据来训练一个或多个经训练的机器学习模型，该训练数据表征使用笔记应用和/或能够用于记笔记的一个或多个其他应用生成的一个或多个其他文档。以此方式，应用和/或自动化助理可以被训练成基于它们对应的文本内容、应用的类型、用户的类型(具有来自用户的事先许可)、创建文档的时间、创建文档的定位、和/或可为以某种方式布置文本内容提供基础的任何其他信息来识别不同文档中的文本内容的布置。例如，用户通常可以早上在家里访问他们的“待办事项”列表，因此早上在用户家里执行的语音到文本操作可以并入用于创建“列表”的布置数据，这与创建正式的信件布置和/或日志条目布置相对照。

可替代地或附加地，用户通常可以在晚上下班回家的路上使用他们的自动化助理来生成日志条目。因此，当用户被确定在下班回家的路上并且请求由自动化助理执行语音到文本操作的执行时，自动化助理可以识别一个或多个布置操作。可以基于用户和/或一个或多个其他用户生成的日志条目的先前实例来识别一个或多个布置操作，以并入到日志条目的文本内容中(例如，缩进、新行、日期、签名、标题、字体、颜色、大小等)。例如，可以使用一个或多个经训练的机器学习模型来处理文本内容和/或场境数据的一个或多个部分，以便生成可以映射到潜在空间的嵌入。当映射的嵌入被确定为与对应于布置操作和/或格式化指令的一个或多个其他嵌入相距阈值距离时，布置操作和/或格式化指令可以相对于文本内容的那些一个或多个部分来执行。

方法300可以从操作308进行到操作312，操作312可以包括根据内容布置数据使得文本内容被并入到文本字段中。在一些实现方式中，当文本内容被并入到文本字段中时，方法300可以进行到确定用户是否已经提供了从文本字段中消除一定量的文本内容的请求的任选操作314。任选操作314可以被认为是任选的，因为操作314的执行可以基于从用户接收一个或多个特定的口头话语。当确定用户没有提供诸如请求时，方法300可以返回到操作302。否则，方法300可以进行到任选操作316，用于使得特定量的文本内容从文本字段中消除。类似于任选操作314，任选操作316可以被认为是任选的，因为操作316的执行可以基于在任选操作314接收来自用户的一个或多个特定口头话语。

在一些实现方式中，使得要消除的特定量的文本内容可以基于用户对应用和/或自动化助理的一个或多个先前输入。可替代地或附加地，要消除的文本内容的量可以基于文本字段的内容、提供文本字段的附加应用、对应于附加应用的应用类型、文本字段内内容的布置和/或可以与文本内容相关联的任何其他信息。例如，消除一定量的文本内容的请求可以体现在附加的口头话语中，诸如“Clear”。

响应于接收到附加口头话语，自动化助理可以确定用户与自动化助理之间的一个或多个最近的交互包括用户使得自动化助理将着重的项目列表并入到文本字段中。基于该确定，自动化助理可以响应于该附加口头话语从着重的项目列表中消除单个列表项目或其他数量的列表项目。可替代地或附加地，自动化助理可以确定用户与自动化助理之间的一个或多个最近的交互包括用户使得自动化助理将首字母缩略词并入到文本字段中。基于该确定，自动化助理可以响应于来自用户的附加口头话语而消除首字母缩略词的单个字符或其他数量的字符。

图4是示例性计算机系统410的框图400。计算机系统410通常包括经由总线子系统412与多个外围设备通信的至少一个处理器414。这些外围设备可以包括存储子系统424(包括例如，存储器425和文件存储子系统426)、用户接口输出设备420、用户接口输入设备422和网络接口子系统416。输入和输出设备允许用户与计算机系统410交互。网络接口子系统416提供到外部网络的接口，并且耦合到其他计算机系统中的对应接口设备。

用户接口输入设备422可以包括键盘、指向设备(诸如鼠标、轨迹球、触摸板或图形输入板)、扫描仪、并入到显示器中的触摸屏、音频输入设备(诸如话音辨识系统、麦克风和/或其他类型的输入设备)。通常，使用术语“输入设备”旨在包括将信息输入到计算机系统410中或通信网络上的所有可能类型的设备和方式。

用户接口输出设备420可以包括显示器子系统、打印机、传真机或非视觉显示器(诸如音频输出设备)。显示器子系统可以包括阴极射线管(CRT)、诸如液晶显示器(LCD)的平板设备、投影设备或用于创建可视图像的某一其他机构。显示器子系统还可以诸如经由音频输出设备提供非视觉显示器。通常，使用术语“输出设备”旨在包括从计算机系统410向用户或向另一机器或计算机系统输出信息的所有可能类型的设备和方式。

存储子系统424存储提供本文描述的一些或所有模块的功能性的编程和数据结构。例如，存储子系统424可以包括执行方法300的选定方面和/或实现系统200、计算设备104、自动化助理和/或本文论述的任何其他应用、设备、装置和/或模块中的一者或多者的逻辑。

这些软件模块通常由处理器414单独或者结合其他处理器来执行。存储子系统424中使用的存储器425可以包括多个存储器，包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)430和其中存储固定指令的只读存储器(ROM)432。文件存储子系统426可以为程序和数据文件提供持久性存储，并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移除介质、CD-ROM驱动器、光驱或可移除介质盒。实现某些实现方式的功能性的模块可以由文件存储子系统426存储在存储子系统424中，或者处理器414可访问的其他机器中。

总线子系统412提供用于让计算机系统410的各种组件和子系统按照预期相互通信的机制。尽管总线子系统412示意性展示为单个总线，但总线子系统的替代性实现方式可以使用多个总线。

计算机系统410可以是不同类型的，包括工作站、服务器、计算集群、刀片服务器、服务器场或任何其他数据处理系统或计算设备。由于计算机和网络的不断变化的性质，图4中描绘的计算机系统410的描述仅旨在作为用于说明一些实现方式的目的的特定示例。计算机系统410的许多其他配置可能具有比图4中所描绘的计算机系统更多或更少的组件。

在本文所描述的系统收集关于用户(或本文经常称作“参与者”)的个人信息或可以利用个人信息的情况下，可以向用户提供机会来控制程序或特征是否收集用户信息(例如，关于用户的社交网络、社交动作或活动、职业、用户的偏好或用户的当前地理定位的信息)，或者控制是否和/或如何从内容服务器接收可能与用户更相关的内容。而且，某些数据可以在存储或使用之前以一种或多种方式处理，以便消除个人可识别信息。例如，可以处理用户的身份，使得不能确定用户的个人可识别信息，或者可以在获得地理定位信息的地方概括化用户的地理定位(诸如到城市、邮政编码或州级)，使得不能确定用户的特定地理定位。因此，用户可以控制如何收集和/或使用关于用户的信息。

虽然本文已描述和说明了若干实现方式，但是可以利用用于执行功能和/或获得结果和/或本文描述的一个或多个优点的各种其他部件和/或结构，并且此类变化和/或修改中的每一者都被认为在本文描述的实现方式的范围内。更一般地，本文描述的所有参数、尺寸、材料和配置都意图是例示性的，并且实际的参数、尺寸、材料和/或配置将取决于使用教示的特定应用。本领域技术人员将认识到或者能够仅使用常规实验来确定，本文所描述的具体实现方式的许多等同物。因此将理解，前述实现方式仅通过实例方式呈现，并且在所附权利要求及其等同物的范围内，实现方式可以按不同于具体描述和要求保护的方式来实践。本公开的实现方式涉及本文描述的每一个别的特征、系统、物品、材料、套件和/或方法。另外，如果两个或两个以上此类特征、系统、物品、材料、套件和/或方法不是相互矛盾的，则此类两个或两个以上特征、系统、物品、材料、套件和/或方法的任何组合都包括在本公开的范围内。

在一些实现方式中，提供了一种由一个或多个处理器实现的方法，并且该方法包括在计算设备处接收来自用户的指向第一应用的口头话语。口头话语对应于针对第一应用的、用以执行语音到文本操作以将文本并入到不同于第一应用的第二应用的字段中的请求。该方法还包括基于口头话语生成文本内容数据，该文本内容数据表征将被并入到第二应用的字段中的文本内容。该方法还包括基于与口头话语相关联的意图生成内容布置数据，该内容布置数据表征文本内容的第一部分相对于文本内容的第二部分在第二应用的字段内的布置。该方法还包括响应于口头话语并基于文本内容数据和内容布置数据，根据布置将文本内容并入到第二应用的字段中。

本文所公开的技术的这些和其他实现方式可以包括以下特征中的一者或多者。

在一些实现方式中，生成内容布置数据包括确定口头话语的第一口头部分与口头话语的第二口头部分之间的持续时间，以及基于该持续时间确定文本内容的第一部分相对于文本内容的第二部分的布置。在那些实现方式的一些版本中，该布置包括文本内容的第一部分相对于文本内容的第二部分在第二应用的字段中的垂直位置。在这些版本中的一些版本中，根据该布置使得文本内容被并入到第二应用的字段中包括在第二应用的字段处使得并入文本内容的第一部分相对于文本内容的第二部分的垂直位置。作为示例，使得并入第一部分的垂直位置可以包括在文本内容的第一部分之后将回车数据并入到第二应用的字段中，并且在回车数据之后并入文本内容的第二部分。

在一些实现方式中，生成文本内容数据包括识别一个或多个标点符号以包括在要并入第二应用的字段中的文本内容中。在这些实现方式中的一些中，口头话语没有明确识别要被并入到第二应用的字段中的标点符号。

在一些实现方式中，文本内容数据表征口头话语中体现的自然语言内容，并且内容布置数据表征格式化命令，该格式化命令在由第二应用执行时，使得第二应用在第二应用的字段内将文本内容的第一部分与文本内容的第二部分分开布置。

在一些实现方式中，该方法还包括在计算设备处接收来自用户的针对第一应用的附加口头话语。附加口头话语对应于指向第一应用的、用以执行附加语音到文本操作以将附加文本内容并入到第二应用的字段中的附加请求。在这些实现方式的一些版本中，该方法还包括：响应于附加口头话语，使得第二应用将附加文本内容并入到第二应用的字段中；以及响应于附加口头话语，使得第二应用执行一个或多个格式化操作，这些格式化操作修改附加文本内容相对于文本内容在字段内的另一布置。一个或多个格式化操作没有被用户经由附加口头话语明确识别。在这些版本中的一些版本中，第一应用是自动化助理，并且第二应用是文字处理应用，并且任选地，该方法还包括基于附加口头话语和并入到第二应用的字段中的文本内容来识别一个或多个格式化操作。

在一些实现方式中，提供了一种由一个或多个处理器实现的方法，并且该方法包括在计算设备处接收第一口头话语，该第一口头话语对应于针对第一应用的、用以为用户执行语音到文本操作的请求。该方法还包括基于第一口头话语使得文本内容被渲染在第二应用的字段内。文本内容包括第一口头话语的自然语言内容。该方法还包括从用户接收第二口头话语，该第二口头话语对应于第一应用从第二应用的字段中消除文本内容的部分的附加请求，但该第二口头话语未明确识别文本内容的要被消除的部分。该方法还包括响应于第二口头话语，确定要从在第二应用的字段内渲染的文本内容中消除的内容量。该方法还包括响应于第二口头话语，使得从在第二应用的字段内渲染的文本内容中消除该内容量。

在一些实现方式中，要消除的内容量是基于用户在提供第一口头话语的至少一部分时展现出的发声特征。在那些实现方式的一些版本中，发声特征包括第一口头话语的分立部分之间的持续时间，并且第一口头话语的分立部分描述文本内容的不同的相应部分。在这些实现方式的一些附加或替换版本中，发声特征包括第一口头话语中体现的语调特性，并且第一口头话语的分立部分描述文本内容的不同相应部分。

在一些实现方式中，确定要从文本内容中消除的内容量包括：确定第一口头话语的发声特征包括单独自然语言字符的明确发音，以及确定要从在第二应用的字段内渲染的文本内容中消除的单独自然语言字符的数量。在第二应用的字段内渲染的文本内容包括单独自然语言字符，并且要从文本内容中消除的内容量对应于单独自然语言字符的数量。

在一些实现方式中，确定要从文本内容中消除的内容量包括识别该文本内容的文本的第一片段的长度。在那些实现方式中，文本的第一片段是最近被并入到应用的字段中的文本内容的第一部分。在这些实现方式的一些版本中，该方法还包括在计算设备处接收第二口头话语的附加实例，用于从应用的字段中消除文本内容的附加部分，并确定要从文本内容中消除的附加内容量。附加内容量包括文本内容的第二片段，其具有比文本内容的第一片段更长的长度。在这些版本的一些中，该方法还包括在计算设备处接收第二口头话语的另外实例，用于从应用的字段中消除文本内容的另外部分，并确定要从文本内容中消除的另外内容量。另外内容量包括文本内容的具有分立长度的第三片段，所述分立长度比文本内容的第一片段更长并且比文本内容的第二片段更长。作为一个示例，文本内容的第一片段可以由词组成，文本内容的第二片段可以由句子组成，并且文本内容的第三片段可以由包含多个句子的段落组成。

在一些实现方式中，提供了一种由一个或多个处理器实现的方法，并且该方法包括在计算设备处接收来自用户的指向第一应用的口头话语。口头话语对应于针对第一应用的、用以执行语音到文本操作一将文本并入到不同于第一应用的第二应用的字段中的请求。该方法还包括基于口头话语生成文本内容数据，该文本内容数据表征将被并入到第二应用的字段中的文本内容。该方法还包括基于第二应用的应用类型生成内容布置数据，该内容布置数据表征文本内容的第一部分相对于文本内容的第二部分在第二应用的字段内的布置。该方法还包括响应于口头话语并基于文本内容数据和内容布置数据，根据布置将文本内容并入到第二应用的字段中。

在一些实现方式中，进一步基于一个或多个先前的交互来生成内容布置数据，先前的交互涉及用户向与第二应用相对应的应用类型提供其他文本内容。

其他实现方式可以包括存储指令的非暂时性计算机可读存储介质，这些指令可由一个或多个处理器(例如，中央处理单元(CPU))、图形处理单元(GPU)和/或张量处理单元(TPU)执行以执行诸如上文和/或在本文别处所描述的一个或多个方法的方法。其他实现方式可可以包括一个或多个计算机的系统，该系统包括一个或多个处理器，处理器可操作来执行存储的指令以执行诸如上文和/或在本文别处描述的一个或多个方法的方法。

应了解，本文更详细描述的前述概念和附加概念的所有组合都被认为是本文所公开的主题的一部分。例如，出现在本公开末尾的要求保护的主题的所有组合被认为是本文所公开的主题的一部分。

Claims

1.一种由一个或多个处理器实现的方法，所述方法包括：

在计算设备处接收来自用户的指向第一应用的口头话语，

其中，所述口头话语对应于针对所述第一应用的、用以执行语音到文本操作以将文本并入到第二应用的字段中的请求；

基于所述口头话语来生成文本内容数据，所述文本内容数据表征要被并入到所述第二应用的所述字段中的文本内容，

其中，所述第二应用不同于所述第一应用；

基于与所述口头话语相关联的意图来生成内容布置数据，所述内容布置数据表征在所述第二应用的所述字段内所述文本内容的第一部分相对于所述文本内容的第二部分的布置；以及

基于所述文本内容数据和所述内容布置数据，响应于所述口头话语，根据所述布置使得所述文本内容被并入到第二应用的所述字段中。

2.根据权利要求1所述的方法，其中，生成所述内容布置数据包括：

确定在所述口头话语的第一口头部分与所述口头话语的第二口头部分之间的持续时间，

其中，所述文本内容的第一部分相对于所述文本内容的第二部分的所述布置是基于所述持续时间。

3.根据权利要求2所述的方法，其中，所述布置包括在所述第二应用的所述字段中所述文本内容的第一部分相对于所述文本内容的第二部分的垂直位置。

4.根据权利要求3所述的方法，其中，根据所述布置使得所述文本内容被并入到第二应用的所述字段中包括：

在第二应用的所述字段处，使得并入所述文本内容的第一部分相对于所述文本内容的第二部分的所述垂直位置。

5.根据权利要求4所述的方法，其中，使得并入所述第一部分的所述垂直位置包括：

在所述文本内容的第一部分之后，将回车数据并入到第二应用的所述字段中，以及

在所述回车数据之后并入所述文本内容的第二部分。

6.根据任一前述权利要求所述的方法，其中，生成所述文本内容数据包括：

识别一个或多个标点符号以包括在要被并入到第二应用的所述字段中的所述文本内容中，

其中，所述口头话语没有明确识别要被并入到第二应用的所述字段中的标点符号。

7.根据任一前述权利要求所述的方法，

其中，所述文本内容数据表征所述口头话语中体现的自然语言内容，以及

其中，所述内容布置数据表征格式化命令，所述格式化命令在由所述第二应用执行时，使得所述第二应用在第二应用的所述字段内将所述文本内容的第一部分与所述文本内容的第二部分分开布置。

8.根据任一前述权利要求所述的方法，还包括：

在所述计算设备处接收来自所述用户的指向所述第一应用的附加口头话语，

其中，所述附加口头话语对应于针对所述第一应用的、用以执行附加语音到文本操作以将附加文本内容并入到所述第二应用的所述字段中的附加请求；

响应于所述附加口头话语，使得所述第二应用将所述附加文本内容并入到第二应用的所述字段中；以及

响应于所述附加口头话语，使得所述第二应用执行一个或多个格式化操作，所述格式化操作修改在所述字段内所述附加文本内容相对于所述文本内容的另一布置，

其中，所述一个或多个格式化操作没有由所述用户经由所述附加口头话语被明确地识别。

9.根据权利要求8所述的方法，其中，所述第一应用是自动化助理并且所述第二应用是文字处理应用，并且所述方法还包括：

基于所述附加口头话语和并入到第二应用的所述字段中的所述文本内容来识别所述一个或多个格式化操作。

10.一种由一个或多个处理器实现的方法，所述方法包括：

在计算设备处接收第一口头话语，所述第一口头话语对应于针对第一应用的、用以为用户执行语音到文本操作的请求；

基于所述第一口头话语来使得文本内容被渲染在第二应用的字段内，

其中，所述文本内容包括所述第一口头话语的自然语言内容；

从所述用户接收第二口头话语，所述第二口头话语对应于针对所述第一应用的、用以从第二应用的所述字段中消除部分的所述文本内容的附加请求，

其中，所述附加请求没有明确识别要被消除的所述部分的所述文本内容；

响应于所述第二口头话语，确定要从在第二应用的所述字段内渲染的所述文本内容中消除的内容量；以及

响应于所述第二口头话语，使得所述内容量从在第二应用的所述字段内渲染的所述文本内容中消除。

11.根据权利要求10所述的方法，其中，要消除的所述内容量是基于所述用户在提供所述第一口头话语的至少一部分时展现出的发声特征。

12.根据权利要求11所述的方法，

其中，所述发声特征包括在所述第一口头话语的分立部分之间的持续时间，以及

其中，第一口头话语的所述分立部分描述所述文本内容的不同相应部分。

13.根据权利要求11所述的方法，

其中，所述发声特征包括所述第一口头话语中体现的语调特性，以及

14.根据权利要求10至13中的任一项所述的方法，其中，确定要从所述文本内容中消除的所述内容量包括：

确定所述第一口头话语的所述发声特征包括单独自然语言字符的明确发音，

其中，在第二应用的所述字段内渲染的所述文本内容包括所述单独自然语言字符；以及

确定要从在第二应用的所述字段内渲染的所述文本内容消除的所述单独自然语言字符的数量，

其中，要从所述文本内容中消除的所述内容量对应于所述单独自然语言字符的所述数量。

15.根据权利要求10至14中的任一项所述的方法，其中，确定要从所述文本内容中消除的所述内容量包括：

识别所述文本内容的文本的第一片段的长度，

其中，所述文本的第一片段是最近被并入到应用的所述字段中的所述文本内容的第一部分。

16.根据权利要求15所述的方法，还包括：

在所述计算设备处接收所述第二口头话语的附加实例，以用于从应用的所述字段中消除所述文本内容的附加部分，以及

确定要从所述文本内容消除的附加内容量，

其中，所述附加内容量包括所述文本内容的第二片段，所述第二片段具有比文本内容的所述第一片段更长的长度。

17.根据权利要求16所述的方法，还包括：

在所述计算设备处接收所述第二口头话语的另外实例，以用于从应用的所述字段中消除所述文本内容的另外部分，以及

确定要从所述文本内容消除的另外内容量，

其中，所述另外内容量包括具有分立长度的所述文本内容的第三片段，所述分立长度比文本内容的所述第一片段更长并且比文本内容的所述第二片段更长。

18.根据权利要求17所述的方法，其中，所述文本内容的所述第一片段包括词，所述文本内容的所述第二片段包括句子，并且所述文本内容的所述第三片段包括包含多个句子的段落。

19.一种由一个或多个处理器实现的方法，所述方法包括：

在计算设备处接收来自用户的指向第一应用的口头话语，

其中，所述第二应用不同于所述第一应用；

基于所述第二应用的应用类型来生成内容布置数据，所述内容布置数据表征在所述第二应用的所述字段内所述文本内容的第一部分相对于所述文本内容的第二部分的布置；以及

基于所述文本内容数据和所述内容布置数据，响应于所述口头话语，根据所述布置使得所述文本内容被并入到所述第二应用的字段中。

20.根据权利要求19所述的方法，其中，所述内容布置数据是进一步基于一个或多个先前交互来生成，所述一个或多个先前交互涉及所述用户向与所述第二应用相对应的所述应用类型提供其他文本内容。

21.一种系统，包括：

至少一个处理器；以及

存储指令的存储器，所述指令在被执行时使得所述至少一个处理器执行对应于权利要求1至20中任一项的操作。

22.一种存储指令的非暂时性计算机可读存储介质，所述指令在被执行时，使得至少一个处理器执行对应于权利要求1至20中任一项的操作。