CN113196227B

CN113196227B - 显示的文本内容的自动音频回放

Info

Publication number: CN113196227B
Application number: CN201980040263.6A
Authority: CN
Inventors: R.I.辛普森; B.戴维斯; G.博尼法斯-张
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2022-09-09
Anticipated expiration: 2039-11-14
Also published as: CN115454370A; WO2021096507A1; CN113196227A; KR20210059670A; JP2022510528A; KR20230042389A; US20230094174A1; US11887581B2; EP3841458A1; US20240127792A1; JP7395505B2

Abstract

一种音频回放系统，响应于用户输入动作(诸如在显示器上滚动文本内容的部分)提供文本内容的直观的音频回放。包括文本内容的音频(例如，文本到语音音频)的回放可以基于用户输入将文本内容的一部分定位于设备显示器上的特定位置而开始。作为一个示例，用户可以简单地在网页或其它内容项中滚动来使得文本到语音系统执行在设备的视口的一个或多个回放段中显示的文本内容的音频回放(例如，而不需要用户执行额外的敲击或手势来具体选择文本内容的某一部分)。

Description

显示的文本内容的自动音频回放

技术领域

本公开一般涉及文本内容的音频回放。更特别地，本公开涉及响应于用户输入动作(诸如在显示器上滚动(scroll)文本内容的部分)而提供文本内容的直观音频回放(playback)的系统和方法。

背景技术

通常，选择文本内容的一部分来发起文本到语音(text-to-speech)的回放要求对一系列复杂的菜单进行导航(navigate)。对于不熟悉或不习惯对一系列复杂的菜单进行导航的用户，选择文本内容进行文本到语音的回放可能会是一个巨大的挑战。这种复杂性可能导致一些用户完全忽略文本到语音特征。在其它情况下，可能需要开发详细的教程服务以引导用户访问文本内容的部分的文本到语音服务所需的过程。

即使对于那些熟悉菜单导航的人，重复地选择文本的过程也可能证明设备资源的使用效率低下并且是用户沮丧的源头。作为示例，希望选择文章中的一些段落进行文本到语音回放的用户被迫重复地导航他们希望回放的每个段落的菜单。作为另一示例，设备必须投入处理和电池资源以服务每个请求。

发明内容

本公开的实施例的方面和优点将在下面的描述中部分阐述，或者可以从描述中获知，或者可以通过实施例的实践获知。

本公开的一个示例方面针对计算机实施的方法。该方法包括由一个或多个计算设备获得描述一个或多个内容项的数据，该一个或多个内容项包括文本内容的多个部分。方法包括由一个或多个计算设备确定位置数据，该位置数据指示文本内容的部分中的一个或多个在与一个或多个计算设备相关联的显示器上的相应的位置。方法包括由一个或多个计算设备接收指示用户输入的数据，该用户输入修改文本内容的部分中的一个或多个相对于显示器的相应的位置。该方法包括响应于接收到指示用户输入的数据，由一个或多个计算设备确定更新位置数据，该更新位置数据指示文本内容的部分中的一个或多个的相应的更新位置。该方法包括响应于接收到指示用户输入的数据，由一个或多个计算设备并至少部分地基于更新位置数据来识别文本内容的第一部分被定位于显示器的回放区域内。该方法包括响应于接收到指示用户输入的数据，由一个或多个计算设备使得音频信号的回放，该音频信号包括文本内容的第一部分的至少一部分的语音。

本公开的其它方面针对各种系统、装置、非瞬时性计算机可读介质、用户界面和电子设备。

参考以下描述和所附权利要求，将更好地理解本公开的各种实施例的这些和其它特征、方面和优点。包含在本说明书中并构成本说明书的一部分的附图示出了本公开的示例实施例，并且与说明书一起用于解释相关原理。

附图说明

图1A描绘了根据本公开的示例实施例的示例计算系统的框图。

图1B描绘了根据本公开的示例实施例的示例计算设备的框图。

图1C描绘了根据本公开的示例实施例的示例计算设备的框图。

图2A-2B描绘了根据本公开的示例实施例的与文本内容的第一部分被定位于回放区域内相关联的用户界面交互。

图2C-2D描绘了根据本公开的示例实施例的与文本内容的第二部分被定位于回放区域内相关联的用户界面交互。

图3A-3B描绘了根据本公开的示例实施例的用于将非结构化的(unstructured)内容项划分为文本内容的多个部分的方法。

图4描绘了根据本公开的示例实施例的修改用户回放区域设置的用户界面。

图5描绘了根据示例实施例的执行显示的文本内容的音频回放的示例方法的流程图。

图6描绘根据示例实施例的停止显示的文本内容的音频回放的示例方法的流程图。

具体实施方式

概述

本公开的示例方面针对响应于用户输入动作(诸如在显示器上滚动文本内容的部分)而提供文本内容的直观的音频回放的系统和方法。特别地，本文描述的系统和方法针对音频(例如，文本到语音音频)的回放，该音频包括由用户输入定位的设备显示器上的某一位置处的文本内容。因此，作为一个示例，用户可以简单地在网页或其它内容项中滚动来使得文本到语音系统执行在设备的视口(viewport)的一个或多个回放段中显示的文本内容的语音回放(例如，而不需要用户执行额外的敲击或手势来具体选择文本内容的某一部分)。所提出的技术代表对用于文本到语音读出的导航控制的强大调整。具体地，通过经由滚动而不是敲击或手势来控制文本到语音，所提出的系统为新手或者技术上不熟练的用户提供更直观的回放控制。

作为一个示例，计算设备(例如，诸如智能电话的用户设备)可以获得包括文本内容(例如，对应于搜索请求的多个搜索结果)的多个部分的一个或多个内容项。计算设备还可以接收用户输入(例如，将内容向显示器下滚动的滚动操作)和对应的位置数据，该位置数据指示文本内容的每个部分在计算设备的显示器上被移动到哪里。作为一个示例，计算设备可以接收指示文本内容(例如，搜索结果)的第一部分被移动到显示器的上半部分的位置数据。更特别地，如果文本内容的一部分被移动到显示器上的回放区域中，计算设备可以执行包括文本内容的该部分的至少一些的音频回放。作为一个示例，如果搜索结果被移动到显示器的回放区域，计算设备可以提供包括搜索结果的内容的摘要的音频信号的回放。作为另一示例，如果新闻文章的段落被移动到显示器的回放区域，则计算设备可以提供包括整个段落的语音的音频信号的回放。以这种方式，用户能够有目的地将文本内容的一部分移动到显示器的某一位置以使得音频信号的回放。因此，用户能够使用单个用户输入开始回放而不是导航一系列复杂的菜单来使服务能够实现。在一些实施方式中，本文描述的方法响应于语音搜索而启动。

本公开提供许多技术效果和益处。作为一个示例技术效果和益处，本公开的系统和方法使得能够显著减少使用计算设备执行操作所需要的用户输入。通过当文本内容的一部分位于回放区域时提供文本内容的自动回放，不再需要用户选择文本内容的一部分，并且然后执行使得计算设备开始回放的一系列输入。这些额外的用户-设备交互的消除可以节省与处理一系列复杂的用户输入相关联的大量的处理、电池和内存资源。

作为另一示例技术效果和益处，本公开的系统和方法大大减少了与访问设备服务相关联的设备交互复杂性和混乱。例如，用户以前被要求记住使得能够进行文本内容的语音回放的一系列菜单交互。这种记忆要求可能需要创建教程服务来教导用户如何操作音频回放菜单，这反过来会导致增加的开发成本和用户挫败感。本公开的系统和方法通过自动提供直观的回放来消除这些要求，导致了降低的设备交互复杂性并减少了创建用户教程服务的需要。

除了以上描述以外，还可以向用户提供控制，该控制允许用户选择关于是否和何时本文所描述的系统、程序或特征能够收集用户信息(例如，关于用户的社交网络、社交行为或活动、职业、用户偏好或用户的当前位置的信息)、以及是否从服务器向用户发送内容或通信。此外，在存储或使用某一数据之前，可以用一种或多种方式处理该数据，以便移除个人可识别信息。例如，可以对用户的身份进行处理，以便对于该用户没有个人可识别信息可以确定，或者可以在获得位置信息的地方(诸如城市、邮政编码(ZIP code)或州级别)概括用户的地理位置，以便不可以确定用户的特定位置。因此，用户可以具有对收集关于用户的什么信息、如何使用该信息以及向用户提供什么信息的控制。

更特别地，先前的文本内容回放方法已经引起了许多与用户设备交互相关的问题。作为一个示例，先前的方法需要存在回放菜单项，其中该回放菜单项覆盖在显示器的一部分上以用于用户与之交互。这个回放菜单项可能减少了用户可用的显示空间的量，并且可能潜在地遮蔽底层的文本内容。作为另一示例，先前的方法通常会被用户认为是不直观的。例如，利用先前的回放方法所需要的一系列复杂的步骤需要一定程度的用户设备知识，而这些知识很少为所有用户所拥有。所提出的系统通过消除对回放菜单项的需要和显著减少与操作文本内容回放服务相关联的学习曲线来克服这些问题。

本公开的一个或多个计算设备可以获得包括文本内容的部分的内容项。在一些实施方式中，内容项可以是响应于搜索查询的一个或多个搜索结果。作为一个示例，一个或多个计算设备可以响应于搜索查询而获得(多个)内容项(例如，多个搜索结果)，该多个内容项包括文本内容的多个部分(例如，多个搜索结果的每个搜索结果)。作为另一示例，内容项可以是单个搜索结果(例如，最佳动作电影的列表)，其中该单个搜索结果包括文本内容的多个部分(例如，电影列表中的每个电影)。作为另一示例，内容项可以是网页或web文档、文本文档(例如，PDF或文字处理文档)、包括文本内容的图像(例如，由用户捕获的描绘广告、街道标牌等的图像)、和/或包括文本的任何其它内容。

在一些实施方式中，文本内容的多个部分可以以卡片格式(card format)呈现或包括在卡片格式中。卡片格式可以用于将文本内容的部分结构化为文本内容卡(例如，包含文本内容的该部分的各种片段(snippet)的卡片)。作为一个示例，搜索结果查询的每个搜索结果可以呈现在其自己的文本内容卡中或包括在其自己的文本内容卡中。作为另一示例，可以在单个文本内容卡中概括多个搜索结果。文本内容卡可以以便于音频信号的回放的方式组织文本内容的一部分。作为示例，文本内容卡可以强调对应于搜索结果的网页的标题(title)和相关上下文信息。如将在另一小节中更详细地讨论的，文本内容卡可以包括来自非结构化的内容项的文本内容的一个或多个部分。例如，对应于新闻文章的多个段落可以被格式化成单独的文本内容卡以向该内容项提供结构。

在一些实施方式中，内容项可以是网页或其它形式的web文档。文本内容的多个部分可以分别由段落、题头(headline)、说明文字(caption)或文本内容的其它这样的划分来划分。作为一个示例，内容项(例如，包括多个新闻故事的存档的报纸页面)可以被结构化为多个文本内容卡，每个文本内容卡表示来自该内容项的文本内容的一部分(例如，新闻故事的标题和来自新闻故事的第一段落)。作为另一示例，包括单个新闻文章的网页可以被结构化为与文本内容的部分相关联的多个文本内容卡，每个文本内容卡包含文本内容的文章头(header)或段落。

在一些实施方式中，内容项可以是非结构化的(unstructured)或者以其他方式包括非结构化的文本。非结构化的内容可以是例如在题头(heading)、文章、段落等之间没有明确划分的文章。在这种情况下，获得文本内容的部分可以包括从非结构化的文本内容确定文本内容的多个部分。作为一个示例，网页和其它数字的非结构化的内容项可以至少部分地基于与该内容项相关联的数字标记元素被划分为文本内容的部分。作为一个示例，网页可以至少部分地基于与网页相关联的元数据(例如，与网页相关联的超文本标记语言段落标签)划分为文本内容的部分。在另一示例中，在一些实施方式中，可以使用机器智能(例如机器学习模型)将非结构化的内容划分为文本内容的部分。例如，基于用户反馈、用户期望的行为和其它相关的训练数据，机器智能可以确定在哪里将内容项划分成文本内容的部分。

根据本公开的另一方面，一个或多个计算设备可以确定文本内容的部分中的一个或多个相对于计算设备显示器的位置。在一些实施方式中，位置数据可以指示文本内容的所有部分相对于显示器的位置，而不管内容的这些部分是否被定位于显示器上。作为一个示例，位置数据可能指示文本内容的第一部分在显示器的上部20％中。作为另一示例，位置数据可能指示文本内容的当前未显示的第二部分被定位于文本内容的当前显示的一个或多个部分下面一定距离。位置数据可以例如从正在呈现或以其他方式处理内容项的应用(例如，浏览器应用)、从监视设备显示器的单独应用、和/或从位置数据的其它源获得。

根据本公开的另一方面，一个或多个计算设备可以接收修改文本内容的部分的位置的用户输入。用户输入可以对应于物理用户动作。作为一个示例，用户可以使用触摸输入(例如，通过将手指或触笔放在触敏显示器上并向上或向下滑动)来向上或向下滚动显示器。作为另一示例，用户可以使用语音命令滚动显示器。作为又一示例，用户可以使用由计算设备识别出的手势或物理移动来滚动显示器。

用户输入可以通过相对于显示器移动文本内容的一个或多个部分来修改文本内容的该一个或多个部分的相应的位置。作为一个示例，用户滚动输入可以移动显示器，使得先前显示的文本内容的部分现在被定位于显示器上面。作为另一示例，用户手势输入可以将文本内容的一部分从显示器的下半部分移动到显示器的上半部分。

在接收到用户输入之后，一个或多个计算设备可以确定文本内容的一个或多个部分的更新位置。作为一个示例，先前未被定位于显示器上的、文本内容的一部分(例如，与搜索结果相关联的文本内容卡)可以具有被定位于显示器上的更新位置。作为另一示例，先前被定位于显示器上的、该内容的一部分可以具有未被定位于显示器上的更新位置。

根据本公开的另一方面，一个或多个计算设备可以识别文本内容的第一部分被定位于显示器的回放区域内。显示器的回放区域可以是使得与文本内容的第一部分相关联的音频回放能够进行的屏幕区域。作为一个示例，如果文本内容的第一部分被定位于回放区域内，则一个或多个计算设备可以使得包括文本内容的部分的音频回放能够进行。在一些实施例中，文本内容的多个部分可以被识别为被定位于回放区域内。例如，两个相对小的文本内容卡(例如，相对于显示器的尺寸)可以同时都适合于显示器的回放区域。

在一些实施例中，可以将回放区域定义为显示器的矩形部分。可以以多种方式确定回放区域的尺寸和位置。作为一个示例，回放区域的尺寸和位置可以由用户偏好来确定。可以存在允许用户确定回放区域的位置和尺寸的设置菜单。例如，用户可以确定回放区域应该是被定位于显示器的中间的小矩形。另一用户可以选择增大回放区域并将回放区域置于显示器的最顶部。作为另一示例，回放区域的尺寸和位置可以至少部分地由机器智能(例如，机器学习模型)来确定。例如，计算设备可以使用机器智能来分析过去的用户行为，并确定相关用户最偏好的、回放区域的尺寸和位置。可替代地或额外地，回放区域的尺寸和位置可以是预定义的和/或静态的。

在一些实施例中，用户可以将回放区域移动到显示器的其它部分。用户输入可以移动显示器的回放区域以将其放置在文本内容的(多个)另一部分上。作为一个示例，如果操作具有能够显示文本内容(例如，具有多个栏的扫描的报纸文章)的多个部分的相对大的显示器的平板设备，用户可以将回放区域从文本内容的一个部分(例如，段落)拖动到另一部分而不移动底层内容的位置。在这种方式中，用户可以选择性地标识他们希望放置在回放区域内的、文本内容的(多个)部分。因此，回放区域可以具有视觉效果(例如，与回放区域的区域相关联的半透明阴影)，以进一步使得用户能够准确地移动回放区域。

在一些实施例中，回放区域可以与一个或多个视觉效果相关联。作为一个示例，回放区域可以具有半透明阴影以使得能够进行回放区域的用户移动。作为另一示例，显示器的除了回放区域之外的显示区域和/或部分可以具有视觉效果。作为一个示例，回放区域可以没有视觉效果而屏幕的所有其它部分被覆盖有降低的亮度的视觉效果和/或模糊视觉效果，以强调被定位于回放区域中的文本。在一些实施例中，文本内容的被定位于回放区域中的部分还可以具有一个或多个视觉效果。作为一个示例，当单独的字符被定位于回放区域内和/或由文本到语音系统回放时，它们可以被顺序地强调(例如，增大、加粗、高亮显示等)。作为另一示例，可以强调(例如，增大、加粗、高亮显示等)文本内容的被定位于回放区域中的全部一个或多个部分，而文本内容的被定位于显示器的其它区域中的一个或多个部分可以被去强调(例如，缩小、移离显示器(moved off-display)、模糊、变暗等)。作为示例，当文本内容卡中包括的内容的标题被包括在音频信号的回放中时，它可以被高亮显示。

在一些实施例中，计算设备可以在识别文本内容的一部分被显示在回放区域内之前暂停达一时间段。通过暂停达一时间段，计算设备可以确保用户有目的地将文本内容的该部分置于回放区域中(反之亦然)。作为一个示例，可以基于用户偏好来确定该时间段。作为另一示例，可以基于许多其它因素(例如，文本内容的部分的数量、用户先前的偏好和动作、移动文本内容的用户输入等)来确定该时间段。

根据本公开的另一方面，一个或多个计算设备可以提供包括文本内容的部分的音频信号的回放。在一些实施方式中，音频信号可以包括与文本内容的第一部分相关联的上下文信息。上下文信息可以包括摘要、简要描述、标题和/或文本内容的第一部分中包括的项目的列表。作为一个示例，包含20家本地餐馆的列表的搜索结果可以通过只播放顶部三个结果来进行概括。作为另一示例，电影Z中的所有演员的列表可以被简单地描述为“电影Z中的演员的列表”。作为另一示例，包括新闻文章的搜索结果的音频信号可以只包括新闻文章的标题。在一些实施例中，在包括文本内容的第一部分的音频信号的回放之后，一个或多个计算设备可以自动滚动到文本内容的下一部分，以开始包括文本内容的下一部分的音频信号的回放。在一些实施方式中，音频信号的回放依赖于初始用户输入。作为示例，一个或多个计算设备可以使用邻近于回放区域的按钮来请求用户确认，并且用户可以按下该按钮来确认音频信号的回放。

在一些实施方式中，音频信号可以至少部分地由机器智能(例如，机器学习模型)来确定。机器智能可以用于确定要被包括在音频信号中的、文本内容的部分的偏好部分和格式。作为一个示例，机器学习模型可以识别用户偏好于在音频信号中仅包括文本内容的每个部分的简要描述。作为另一示例，机器学习模型可以确定第二用户偏好于在音频信号中包括文本内容的整个部分。作为另一示例，机器学习模型可以基于要被包括的文本内容的类型来确定第三用户偏好将文本内容的不同部分和格式包括在音频信号中。

在一些实施方式中，音频信号可以进一步包括文本内容的部分从一种语言到另一种语言的转换。音频信号可以基于用户偏好提供语言转换。例如，用户可能正在浏览用外语编写的文档。一个或多个计算设备可以选择性地为文本内容的位于回放区域中的部分提供音频信号转换。如果用户知道他们希望转换的文本内容的位置，这可以使得用户快速接收文本内容的一部分的特定转换。

作为另一示例，可以选择性地执行字符识别以识别移动到回放窗口的未识别出的文本内容(例如，没有数字字符标识符的扫描的文档)的(多个)部分中的字符。计算设备可以等待执行字符识别直到文本内容的该部分被定位于回放窗口中，从而节省了与对整个内容项执行字符识别相关联的时间和处理资源。作为示例，用户可以浏览包含未识别出的文本内容的PDF文档。在执行字符识别并将识别出的字符包括在语音信号中之前，计算设备可以等待直到PDF的一部分被定位于回放区域内。

在一些实施方式中，本文描述的方法响应于语音搜索而启动。作为示例，由用户触摸命令发起的搜索将不会激活包括文本内容的位于回放区域中的第一部分的音频信号的回放。作为另一示例，由用户语音搜索发起的搜索将会激活包括文本内容的位于回放区域中的第一部分的音频信号的回放。

根据本公开的另一方面，一个或多个计算设备可以基于第二用户输入停止音频信号的回放。更特别地，如果用户输入将文本内容的当前被定位于回放区域中的(多个)部分移出该回放区域，则计算设备可以停止该音频信号的回放。作为一个示例，用户可以执行滚动输入并将当前音频信号中包括的、文本内容的一部分移出回放区域。如果文本内容的该部分被移出回放区域，计算设备可以停止回放，并且然后确定文本内容的新的部分是否被定位于回放区域中。如果文本内容的新的部分被定位于回放区域中，则计算设备可以开始包括文本内容的该新的部分的音频信号的回放。

本文描述的机器智能(例如，机器学习模型)中的任何一个可以基于用户反馈(例如，所执行的操作是正确或不正确的用户指示)来训练。用户反馈可以跨多个用户来被聚合以生成(例如，重新训练)全局模型和/或用户特定的反馈可以用于个性化(例如，重新训练)个性化模型。作为示例，用户反馈可以指示回放区域是否是错误的尺寸和/或在错误的位置和/或内容项是否正确/不正确地被划分为文本内容的多个部分。基于用户反馈重新训练模型可以使得改进的模型性能向前发展。

因此，本公开的系统和方法除了响应于用户输入动作的文本内容的直观回放之外，还提供各种其它辅助服务，诸如文本摘要和/或基于机器智能的用户偏好管理。因此，本公开的系统和方法可以显著降低导航复杂菜单并指示计算设备以使得能够进行内容的特定片段的音频回放所固有的复杂性。

现在参考图示，将进一步详细讨论本公开的示例实施例。图1A描绘了根据本公开的示例实施例的示例计算系统100的框图。系统100包括通过网络180通信地耦合的用户计算设备102、服务器计算系统130和训练计算系统150。

用户计算设备102可以是任何类型的计算设备，诸如，例如个人计算设备(例如，膝上型或桌上型)、移动计算设备(例如，智能手机或平板电脑)、游戏机或控制器、可穿戴计算设备、嵌入式计算设备或任何其它类型的计算设备。

用户计算设备102包括一个或多个处理器112和存储器114。一个或多个处理器112可以是任何合适的处理设备(例如，处理器核心、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是一个处理器或者可操作地连接的多个处理器。存储器114可以包括一个或多个非瞬时性计算机可读存储介质，例如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等、以及它们的组合。存储器114可以存储由处理器112执行以使得用户计算设备102执行操作的数据116和指令118。

用户计算设备102可以包括实施本文描述的回放体验的音频回放系统119。音频回放系统119可以是应用、插件(例如，浏览器应用的插件)或可由一个或多个处理器112实施的其它形式的软件。用户计算设备102可以访问一个或多个内容项190(例如，通过网络180和/或从本地存储器114)，并且音频回放系统119可以为包括在一个或多个内容项190(例如，多个搜索结果、单个搜索结果、文本文档、网页、web文档、PDF、图像等)中的文本内容生成音频回放体验。

在一些实施方式中，用户计算设备102(例如，音频回放系统119)可以存储或包括一个或多个机器学习模型120。例如，机器学习模型120可以是或者可以以其他方式包括各种机器学习模型，诸如神经网络(例如，深度神经网络)或其它类型的机器学习模型，包括非线性模型和/或线性模型。神经网络可以包括前馈神经网络、循环神经网络(例如，长短时记忆循环神经网络)、卷积神经网络或其它形式的神经网络。

在一些实施方式中，一个或多个机器学习模型120可以通过网络180从服务器计算系统130接收，被存储在用户计算设备存储器114中，并且然后由一个或多个处理器112使用或者以其他方式实施。在一些实施方式中，用户计算设备102可以实施单个机器学习模型120的多个并行实例。

额外地或可替代地，一个或多个机器学习模型140可以包括在服务器计算系统130中，或者以其他方式由服务器计算系统130存储和实施，其中服务器计算系统130根据客户端-服务器关系与用户计算设备102通信。例如，机器学习模型140可以由服务器计算系统140实施为web服务(例如，语义实体识别服务)的一部分。因此，可以在用户计算设备102处存储和实施一个或多个模型120，和/或可以在服务器计算系统130处存储和实施一个或多个模型140。

音频回放系统还可以包括TTS系统121。TTS系统可以执行任意数量的TTS技术来生成包括文本的语音的音频信号(例如，图2B的音频信号212)。语音回放系统还可以包括回放区域处理器123。可以由回放区域处理器123确定文本内容的一个或多个部分被定位于回放区域内。回放区域处理器123还可以基于多个因素(例如，用户设置、先前分析的用户行为、全局用户行为的机器学习分析等)来确定回放区域的位置、尺寸和灵敏度。

用户计算设备102还可以包括接收用户输入的一个或多个用户输入组件122。例如，用户输入组件122可以是对用户输入对象(例如，手指或触笔)的触摸敏感的触敏组件(例如，触敏显示屏或触摸板)。触敏组件可以用于实施虚拟键盘。其它示例用户输入组件包括麦克风、传统键盘或用户可以通过其提供用户输入的其它方式。

用户计算设备102还可以包括一个或多个扬声器124。扬声器124可以物理地连接到设备102或者不物理地连接到设备102。扬声器124可以包括独立扬声器、耳塞等。

服务器计算系统130包括一个或多个处理器132和存储器134。一个或多个处理器132可以是任何合适的处理设备(例如，处理器核心、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是一个处理器或者可操作地连接的多个处理器。存储器134可以包括一个或多个非瞬时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等、以及它们的组合。存储器134可以存储由处理器132执行以使得服务器计算系统130执行操作的数据136和指令138。

在一些实施方式中，服务器计算系统130包括一个或多个服务器计算设备，或者以其他方式由一个或多个服务器计算设备实施。在服务器计算系统130包括多个服务器计算设备的实例中，这种服务器计算设备可以根据顺序计算架构、并行计算架构或它们的某个组合来操作。

如上面描述的，服务器计算系统130可以存储或以其他方式包括一个或多个机器学习模型140。例如，模型140可以是或者可以以其他方式包括各种机器学习模型。示例机器学习模型包括神经网络或其它多层非线性模型。示例神经网络包括前馈神经网络、深度神经网络、循环神经网络和卷积神经网络。

用户计算设备102和/或服务器计算系统130可以经由与训练计算系统150的交互来训练模型120和/或140，其中训练计算系统150通过网络180通信地耦合。训练计算系统150可以与服务器计算系统130分离，或者可以是服务器计算系统130的一部分。

训练计算系统150包括一个或多个处理器152和存储器154。一个或多个处理器152可以是任何合适的处理设备(例如，处理器核心、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是一个处理器或者可操作地连接的多个处理器。存储器154可以包括一个或多个非瞬时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等、以及它们的组合。存储器154可以存储由处理器152执行以使得训练计算系统150执行操作的数据156和指令158。在一些实施方式中，训练计算系统150包括一个或多个服务器计算设备，或者以其他方式由一个或多个服务器计算设备实施。

训练计算系统150可以包括模型训练器160，其中模型训练器160使用各种训练或学习技术(诸如，例如误差的反向传播)来训练存储在用户计算设备102和/或服务器计算系统130的机器学习模型120和/或140。在一些实施方式中，执行误差的反向传播可以包括执行通过时间的截断的反向传播。模型训练器160可以执行多个泛化技术(例如，权重衰减、丢弃等)，以改进正在训练的模型的泛化能力。

特别地，模型训练器160可以基于一组训练数据162训练机器学习模型120和/或140。训练数据162可以包括例如用户反馈或描述响应于各种回放体验设置或操作而执行的用户动作的数据。

在一些实施方式中，如果用户提供了同意，则可以由用户计算设备102提供训练示例。因此，在这样的实施方式中，提供给用户计算设备102的模型120可以由训练计算系统150在从用户计算设备102接收到的用户特定的数据上训练。在一些实例中，这个过程可以称为对模型进行个性化。

模型训练器160包括用于提供期望的功能的计算机逻辑。模型训练器160可以以硬件、固件和/或控制通用处理器的软件来实施。例如，在一些实施方式中，模型训练器160包括存储在存储设备上、加载到存储器中并由一个或多个处理器执行的程序文件。在其它实施方式中，模型训练器160包括存储在有形的计算机可读存储介质(诸如RAM硬盘或者光或磁介质)中的一组或多组计算机可执行指令。

网络180可以是任何类型的通信网络，诸如局域网(例如，内联网)、广域网(例如，因特网)或者它们的某一组合，并且可以包括任意数量的有线或无线链路。一般而言，网络180上的通信可以使用各种各样的通信协议(例如，TCP/IP、HTTP、SMTP、FTP)、编码或格式(例如HTML、XML)和/或保护方案(例如VPN、安全HTTP、SSL)，经由任何类型的有线和/或无线连接来进行。

图1A示出可以用于实施本公开的一个示例计算系统。其它计算系统也可以使用。例如，在一些实施方式中，用户计算设备102可以包括模型训练器160和训练数据集162。在这样的实施方式中，可以在用户计算设备102处本地训练和使用模型120。在这样的实施方式的一些中，用户计算设备102可以基于用户特定的数据来实施模型训练器160以个性化模型120。

图1B描绘了根据本公开的示例实施例执行的示例计算设备10的框图。计算设备10可以是用户计算设备或服务器计算设备。

计算设备10包括多个应用(例如，应用1到N)。每个应用包含其自己的机器学习库和机器学习模型。例如，每个应用可以包括机器学习模型。示例应用包括文本消息应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。

如图1B中所示，每个应用可以与计算设备的多个其它组件(诸如，例如一个或多个传感器、上下文管理器、设备状态组件和/或附加组件)通信。在一些实施方式中，每个应用可以使用API(例如，公共API)与每个设备组件通信。在一些实施方式中，由每个应用使用的API是特定于该应用的。

图1C描绘了根据本公开的示例实施例执行的示例计算设备50的框图。计算设备50可以是用户计算设备或服务器计算设备。

计算设备50包括多个应用(例如，应用1到N)。每个应用与中央智能层通信。示例应用包括文本消息应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。在一些实施方式中，每个应用可以使用API(例如，跨所有应用的通用API)与中央智能层(以及存储在其中的(多个)模型)通信。

中央智能层包括多个机器学习模型。例如，如图1C中所示，可以为每个应用提供相应的机器学习模型(例如，模型)，并由中央智能层管理。在其它实施方式中，两个或更多个应用可以共享单个机器学习模型。例如，在一些实施方式中，中央智能层可以为所有应用提供单个模型(例如，单个模型)。在一些实施方式中，中央智能层被包括在计算设备50的操作系统内或以其他方式由其实施。

中央智能层可以与中央设备数据层通信。中央设备数据层可以是用于计算设备50的数据的集中化存储库。如图1C中所示，中央设备数据层可以与许多计算设备的其它组件通信，诸如，例如一个或多个传感器、上下文管理器、设备状态组件和/或附加组件。在一些实施方式中，中央设备数据层可以使用API(例如，私有API)与每个设备组件通信。

图2A-2B描绘了根据本公开的示例实施例的与文本内容的第一部分被定位于回放区域中相关联的用户界面交互。在图2A处，计算设备显示器200包括多个显示元素。显示元素包括搜索查询202、文本内容的部分204a-204e(例如，搜索结果)和回放区域206。在一些实施例中，与搜索查询202相关联的文本结果的全部可以被称为内容项。如图2中所说明的，文本内容204的部分可以是多个搜索结果。在其它实施例中，文本内容204的部分可以是单个搜索结果、web文档中的段落、新闻文章中的栏等。如将在图3A-3B中说明的，非结构化的内容项可以被划分为文本内容204的部分。

文本内容204的部分可以以卡片格式呈现或包括在卡片格式中。卡片格式可以用于将文本内容的一部分结构化为文本内容卡(例如，包含文本内容的该部分的各种片段的卡片)。作为一个示例，与搜索查询202相关联的文本内容204的每个部分在其自己的文本内容卡中呈现。作为另一示例，可以在单个文本内容卡中概括文本内容204的部分。文本内容卡可以以便于音频信号(例如，音频信号212)的回放的方式组织文本内容的部分。作为一个示例，文本内容204的部分每一个包括相关联的URL信息(例如，文本内容的部分204b中包括的“movie-database>current-movies-in-production”)以及来自相关联的搜索结果的、文本内容的所选择的部分(例如，文本内容的部分204d中包括的前三部电影)。

回放区域206可以是使得能够进行包括文本内容204的第一部分的至少一部分的音频信号212的回放的屏幕区域。作为一个示例，文本内容的第一部分204b被定位于回放区域206内。(多个)计算设备200可以使得能够进行包括文本内容的第一部分204b的至少一部分的音频信号212的回放。音频信号可以包括将文本内容的第一部分204b的一部分转换为语音。音频信号还可以包括文本内容的第一部分204b从第一语言到第二语言的转换。音频信号还可以包括与文本内容的第一部分204b相关联的上下文信息。如图4所描绘的，音频信号可以至少部分地基于用户偏好。音频信号还可以至少部分地基于机器智能(例如，机器学习型120)。在一些实施例中，文本内容的多个部分(例如204b和204c)可以被识别为被定位于回放区域中，并且可以被包括在音频信号212中。

在一些实施例中，音频信号212的回放还可以包括确定文本内容的第一部分包括未识别出的文本内容。作为示例，文本内容的第一部分204b可以包括未识别出的文本内容(例如，包括没有数字字符标识符的报纸扫描的PDF)。如果文本内容的第一部分204b包含未识别出的文本内容，(多个)计算设备200可以执行字符识别以识别包括在未识别出的文本内容中的字符。在执行字符识别并且将识别出的字符包括在音频信号中之前，计算设备200可以等待直到包括未识别出的文本的文本内容的部分被定位于回放区域中。

回放区域206可以被定义为显示器的矩形部分。可以以多种方式确定回放区域206的尺寸和位置。作为一个示例，回放区域206的尺寸和位置可以通过用户偏好来确定，如图4所描绘的。作为另一示例，回放区域206的尺寸和位置可以至少部分地由机器智能(例如，机器学习模型120)来确定。例如，(多个)计算设备200可以使用机器智能来分析过去的用户行为，并确定相关用户最偏好的回放区域206的尺寸和位置。可替代地或额外地，回放区域206的尺寸和位置可以是预定义的和/或静态的。

回放区域206可以由用户移动到显示器的其它部分。用户输入可以移动显示器的回放区域206以将其放置在文本内容204的另一部分上。作为一个示例，用户可以在不移动文本内容204的底层部分的位置的情况下，将回放区域从文本内容的部分204b拖动到文本内容的部分204c。以这种方式，用户可以选择性地标识他们希望放置于回放区域206内的文本内容204的部分。因此，回放区域206可以具有视觉效果(例如，与回放区域的区域相关联的半透明阴影)，以进一步使用户能够准确地移动回放区域。然而，回放区域206不必要在所有实施例中需要视觉效果。

(多个)计算设备200可以在识别文本内容204的一部分显示在回放区域内之前暂停一段时间。通过暂停达一时间段，(多个)计算设备200可以确保用户有目的地将文本内容204的部分定位于回放区域中(反之亦然)。作为一个示例，如图4将要描绘的，可以基于用户偏好来确定该时间段。作为另一示例，可以基于多个其它因素(例如，文本内容的部分的数量、用户先前的偏好和动作、移动文本内容的用户输入等)来确定该时间段。例如，计算设备200可以在确定文本内容的部分204b被定位于回放区域206中之前暂停1.5秒。

在图2B处，计算设备显示器200包括与确定文本内容204的一部分被定位于回放区域206中相关联的多个视觉效果(例如，208、210、214)。当确定文本内容204的一部分被定位于回放区域206中时，可以使用去强调效果208来去强调显示器的非回放段。去强调效果208可以包括缩小效果、将非回放段移出显示器、模糊效果、变暗效果或旨在说明显示器的部分不是回放区域的任何其它效果。

强调效果210可以用于强调回放区域206。在一些实施例中，当确定文本内容的一部分被定位于回放区域206中时，可以使用强调效果210。在其它实施例中，即使当没有确定文本内容的一部分被定位于回放区域206中时，也可以使用强调效果210。以这种方式，强调效果210可以帮助用户将回放区域206移动到显示器上的另一位置。

强调效果210可以是半透明的阴影效果、文本的加粗或可以强调回放区域206的位置和尺寸的任何其它效果。此外，被定位于回放区域中的文本内容的部分可以具有文本强调效果214。文本强调效果214可以是单独的字符被定位于回放区域206中和/或由文本到语音系统回放时，其顺序的强调。这种顺序的强调可以包括文本增大、加粗、高亮显示等。例如，如图2B中所描绘的，文本内容的部分的一部分通过文本强调效果214加粗和斜体书写。作为另一示例，文本强调效果214可以强调被定位于回放区域206中的文本内容204的整个部分(例如，增大、加粗、高亮显示等)。

图2C-2D描绘了根据本公开的示例实施例的与文本内容的第二部分被定位于回放区域中相关联的用户界面交互。图2C描绘了图2A中描绘的相同的显示器布局，包括搜索结果202和被定位于相同的相对位置的文本内容的部分204a-e(例如，搜索结果)。移动输入216改变图2D中描绘的文本内容的部分的相对位置。作为示例，在接收到移动输入216之前，文本内容的第一部分204b被定位于回放区域206中。在接收到移动输入216之后，文本内容的第一部分204b已经被定位于回放区域206的外部，而文本内容的第二部分204c已经被定位于回放区域206内。

在一些实施例中，移动输入216可以是用户输入。用户输入可以对应于物理用户动作。作为一个示例，用户可以使用触摸输入向上或向下滚动显示器(例如，通过将手指或触笔放在触敏显示器上并向上或向下滑动)。作为另一示例，用户可以使用语音命令滚动显示器。作为又一示例，用户可以使用由计算设备识别出的手势或物理移动来滚动显示器。

在一些实施例中，运动输入216可以是计算机生成的输入。作为示例，机器智能(例如，机器学习模型120)可以自动移动文本内容的部分。自动移动可以基于先前的用户行为和/或全局用户行为模型。作为另一示例，文本内容的部分的自动移动可以基于用户偏好。用户可以利用以由用户确定的速度滚动通过内容项的“自动滚动”特征。

将文本内容的第一部分204b移出回放区域206可以使得文本内容的第一部分204b的音频信号回放停止。作为一个示例，用户可以执行移动输入216(例如，滚动输入)，并将当前音频信号回放中包括的文本内容的第一部分204b移出回放区域206。如果文本内容的第一部分204b被移出回放区域206，(多个)计算设备200可以停止回放，并且然后确定文本内容的第二部分204c是否被定位于回放区域206中。如果文本内容的第二部分204c被定位于回放区域206中，(多个)计算设备200可以开始包括文本内容的第二部分204c的音频信号的回放。

图3A-3B描绘了根据本公开的示例实施例的用于将非结构化的内容项划分为文本内容的多个部分的方法。图3A包括标题302和非结构化的内容项304。标题302可以是非结构化的内容项304的标题或其源。内容项(例如，非结构化的内容项304)可以是非结构化的，或者以其他方式包括非结构化的文本。例如，非结构化的内容可以是在题头(heading)、文章、段落等之间没有明确划分的文章。在这种情况下，获得文本内容的部分可以包括从非结构化的文本内容确定文本内容的多个部分。

图3B描绘了已经被划分为文本内容308的多个部分(例如，308a、308b、308c、308d、308e)的非结构化的内容项304。非结构化的内容项可以以许多方式划分为文本内容的多个部分。作为一个示例，数字的非结构化的内容项可以至少部分地基于与内容项相关联的数字标记元素来被划分为文本内容的部分。例如，非结构化的内容项304包括与段落缩进306(例如，306a、306b、306c、306d、306e)相关联的数字标记元素。

尽管在图3A中显示了段落缩进306，未被主动显示的数字标记元素也可以用于划分非结构化的内容项。例如，与网页相关联的元数据(例如，与头(header)相关联的超文本标记语言头标签)可以用于将非结构化的内容项划分为内容的多个部分。在另一示例中，在一些实施方式中，机器智能(例如，机器学习模型120)可以用于将非结构化的内容划分为文本内容的部分。例如，基于用户反馈、用户期望的行为和其它相关的训练数据，机器智能可以确定在哪里将内容项划分成文本内容的部分。

图4描绘了根据本公开的示例实施例的用于修改用户回放区域设置的用户界面。回放区域设置界面400包括回放区域位置设置402、回放区域尺寸设置404和回放区域开始时间设置406。在一些实施方式中，回放区域设置界面400可以包括回放区域回放速度设置。回放速度设置可以至少部分地确定读取被定位于回放区域中的文本内容的部分的速度。例如，将回放区域速度设置改变为1.25的值可以使得音频信号回放的速度增加25％或一些其它量。作为另一示例，将回放区域速度设置改变为0.5的值可以使得音频信号回放的速度减少50％或一些其它量。

可以基于用户指定的回放区域位置设置402来确定回放区域的位置。作为示例，回放区域位置设置402允许用户确定与计算设备的显示器相对应的回放区域的位置。例如，用户可以确定回放区域应该是被定位于显示器中间的小矩形。另一用户可以选择增大回放区域并将回放区域定位在显示器的最顶端。

可以基于用户指定的回放区域尺寸设置404来确定回放区域的尺寸。作为一个示例，用户可以确定回放区域的尺寸和形状应该是提供足够的区域以包括文本内容的两个部分的正方形。作为另一示例，第二用户可以确定回放区域的尺寸和形状应该是具有足够区域以包括报纸栏的矩形。作为又一示例，第三用户可以确定回放区域的尺寸和形状应该是提供足够的区域来仅适合文本内容的一个部分的薄矩形。

可以基于用户指定的回放区域开始时间设置406来确定回放区域的回放开始时间。设置具体的开始时间(例如，暂停时间)可以用于确保用户有目的地将文本内容的一部分定位于回放区域中(反之亦然)。作为一个示例，用户可以指定回放应该在确定文本内容的一部分位于回放区域的1/2秒后开始。作为另一示例，第二用户可以指定在确定文本内容的一部分位于回放区域的3秒后开始回放。

回放区域设置400(例如，回放区域位置设置402、回放区域尺寸设置404、回放区域开始时间设置406)可以至少部分地通过机器智能(例如，机器学习模型120)来调整。机器智能可以至少部分地基于检测到的低效率来调整用户指定的回放区域设置400。机器学习模型120可以至少部分地基于先前和当前用户行为、全局用户行为和/或其它因素来训练。例如，机器智能可以确定已经指定了某一回放区域位置设置402的用户显示出指示回放区域位置设置402可以位于用户更偏好的位置的行为。在一些实施例中，机器智能可以确定在不通知用户的情况下自动调整相关联的回放区域设置400。在其它实施例中，机器智能可以确定在调整回放区域设置400之前通知用户。

图5描绘了根据示例实施例的执行显示的文本内容的音频回放的示例方法500的流程图。方法500可以例如使用图1的(多个)计算设备来实施。图5描绘了为了说明和讨论的目的而以特定顺序执行的步骤。使用本文提供的公开的本领域技术人员将会理解，可以以各种方式省略、重新布置、同时执行、扩展和/或修改本文描述的方法中的任何一个的各个步骤，而不偏离本公开的范围。

在502处，该方法可以包括获得描述包括文本内容的多个部分的一个或多个内容项的数据。例如，内容项可以是响应于搜索查询的一个或多个搜索结果。作为一个示例，一个或多个计算设备可以响应于搜索查询而获得(多个)内容项(例如，多个搜索结果)，其中内容项包括文本内容的多个部分(例如，多个搜索结果中的每个搜索结果)。作为另一示例，内容项可以是单个搜索结果(例如，最佳动作电影的列表)，其中该单个搜索结果包括文本内容的多个部分(例如，电影列表中的每个电影)。

文本内容的一部分可以是包括文本内容的内容项的划分。作为示例，内容项可以是可划分为文本内容的多个部分的网页或web文档，文本内容的每个部分web页或web文档的段落。文本内容的部分可以卡片格式呈现或包括在卡片格式中。卡片格式可以用于将文本内容的部分结构化为文本内容卡(例如，包含文本内容的部分的各种片段的卡片)。作为一个示例，搜索结果查询的每个搜索结果可以呈现在其自己的文本内容卡中或包括在其自己的文本内容卡中。作为另一示例，可以在单个文本内容卡中概括多个搜索结果。文本内容卡可以以便于音频信号的回放的方式组织文本内容的一部分。作为示例，文本内容卡可以强调对应于搜索结果的网页的标题和相关上下文信息。

在504处，该方法可以包括确定位置数据，该位置数据指示文本内容的部分中的一个或多个在与一个或多个计算设备相关联的显示器上的相应的位置。位置数据可以指示文本内容的所有部分相对于显示器的位置，而不管内容的这些部分是否被定位于显示器上。作为示例，位置数据可能指示文本内容的第一部分在显示器的上部20％中。作为另一示例，位置数据可能指示文本内容的当前未显示的第二部分被定位于文本内容的当前显示的一个或多个部分下面一定距离。位置数据可以例如从正在呈现或以其他方式处理内容项的应用(例如，浏览器应用)、从监视设备显示器的单独应用、和/或从位置数据的其它源获得。

在506处，该方法可以包括接收指示用户输入的数据，该用户输入修改文本内容的一个或多个部分相对于显示器的相应的位置。用户输入可以对应于物理用户动作。作为一个示例，用户可以使用触摸输入(例如，通过将手指或触笔放在触敏显示器上并向上或向下滑动)来向上或向下滚动显示器。作为另一示例，用户可以使用语音命令来滚动显示器。作为又一示例，用户可以使用由计算设备识别出的手势或物理移动来滚动显示。

用户输入可以通过相对于显示器移动文本内容的一个或多个部分来修改文本内容的该一个或多个部分的相应的位置。作为一个示例，用户滚动输入可以移动显示器以使得先前显示的、文本内容的部分现在被定位于显示器上方。作为另一示例，用户手势输入可以将文本内容的一部分从显示器的下半部分移动到显示器的上半部分。

在508处，该方法可以包括响应于接收到指示用户输入的数据而确定指示文本内容的部分中的一个或多个的相应的更新位置的更新位置数据。在已经移动文本内容的一个或多个部分后，更新位置数据可以指示它们相对于屏幕的新的相应的位置。作为一个示例，先前未被定位于显示器上的、文本内容的一部分(例如，与搜索结果相关联的文本内容卡)可以具有被定位于显示器上的更新位置。作为另一示例，先前被定位于显示器上的、内容的一部分可以具有未被定位于显示器上的更新位置。

在510处，该方法可以包括响应于接收到指示用户输入的数据并且至少部分地基于更新位置数据来识别文本内容的第一部分被定位于显示器的回放区域内。显示器的回放区域可以是使得能够进行与文本内容的第一部分相关联的音频回放的屏幕区域。作为一个示例，如果文本内容的第一部分被定位于回放区域内，则该一个或多个计算设备可以使得能够进行包括文本内容的该部分的音频回放。在一些实施例中，文本内容的多个部分可以被识别为被定位于回放区域内。例如，两个相对小的文本内容卡(例如，相对于显示器的尺寸)可以同时都适合于显示器的回放区域。

在一些实施例中，可以将回放区域定义为显示器的矩形部分。可以以多种方式确定回放区域的尺寸和位置。作为一个示例，回放区域的尺寸和位置可以由用户偏好来确定。可以存在允许用户确定回放区域的位置和尺寸的设置菜单。例如，用户可以确定回放区域应该是被定位于显示器中间的小矩形。另一用户可以选择增大回放区域并将回放区域定位于显示器的最顶端。作为另一示例，回放区域的尺寸和位置可以至少部分地由机器智能(例如，机器学习模型)来确定。例如，计算设备可以使用机器智能来分析过去的用户行为，并确定相关用户最偏好的回放区域的尺寸和位置。可替代地或额外地，回放区域的尺寸和位置可以是预定义的和/或静态的。

在512处，方法可以包括响应于接收到指示用户输入的数据而使得包括文本内容的第一部分的至少一部分的语音的音频信号的回放。在一些实施方式中，音频信号可以包括与文本内容的第一部分相关联的上下文信息。上下文信息可以包括摘要、简要描述、标题、和/或文本内容的第一部分中包括的项目的列表。作为一个示例，包含20家本地餐馆的列表的搜索结果可以通过只播放顶部三个结果来概括。

在一些实施方式中，音频信号可以至少部分地通过机器智能(例如，机器学习模型)来确定。机器智能可以用于确定要包括在音频信号中的、文本内容的一部分的偏好部分和格式。作为一个示例，机器学习模型可以识别用户偏好于在音频信号中仅包括文本内容的每个部分的简要描述。作为另一示例，机器学习模型可以确定第二个用户偏好于在音频信号中包括文本内容的整个部分。

在一些实施方式中，音频信号还可以包括文本内容的部分从一种语言到另一种语言的转换。音频信号可以基于用户偏好提供语言转换。例如，用户可能正在浏览用外语编写的文档。一个或多个计算设备可以选择性地为文本内容的位于回放区域中的部分提供音频信号转换。如果用户知道他们希望转换的文本内容的位置，这可以使得用户快速接收文本内容的一部分的特定转换。

图6描绘了根据示例实施例的停止显示的文本内容的音频回放的示例方法600的流程图。方法600可以例如使用图1的(多个)计算设备来实施。图6描绘了为了说明和讨论的目的以特定顺序执行的步骤。使用本文提供的公开的本领域技术人员将会理解，可以以各种方式省略、重新布置、同时执行、扩展和/或修改本文描述的方法中的任何一个的各个步骤，而不偏离本公开的范围。

在602处，方法600可以包括接收指示第二用户输入的数据，该第二用户输入修改内容的一个或多个部分相对于显示器的相应的位置。用户输入可以对应于物理用户动作。作为一个示例，用户可以使用触摸输入(例如，通过将手指或触笔放在触敏显示器上并向上或向下滑动)来向上或向下滚动显示器。图5中描述了用户输入的其它示例。

在604处，方法600可以包括响应于接收到指示第二用户输入的数据而确定更新位置数据，该更新位置数据指示文本内容的部分中的一个或多个的相应的第二更新位置。在已经移动文本内容的一个或多个部分之后，更新位置数据可以指示它们相对于屏幕的新的相应的位置。作为一个示例，先前未被定位于显示器上的、文本内容的一部分(例如，与搜索结果相关联的文本内容卡)可以具有被定位于显示器上的更新位置。

在606处，方法600可以包括响应于接收到指示第二用户输入的数据并至少部分地基于第二更新位置数据来识别文本内容的第一部分被定位于显示器的回放区域的外部。例如，包括在当前正在播放的音频信号中的、文本内容的第一部分可以响应于用户输入而在音频信号仍在播放时被移出回放区域。

在608处，方法600可以包括响应于接收到指示第二用户输入的数据而停止音频信号的回放。如果当前正在播放包括已经由用户输入定位于回放区域外部的、文本内容的一部分的音频信号，计算设备可以停止音频信号的回放。音频信号的停止可以被延迟，以便如果用户期望则允许他们将文本内容的第一部分重新定位回回放区域。作为示例，计算设备可以在停止包括被移动到回放区域外部的、文本内容的一部分的音频信号之前暂停3秒。这允许已经提交了意外输入(例如，意外触摸屏幕)的用户在回放被影响之前修复错误。在一些实施例中，可以至少部分地通过用户设置来确定该暂停。在其它实施例中，该暂停可至少部分地通过机器智能(例如，机器学习模型120)来确定。

附加公开

本文讨论的技术涉及服务器、数据库、软件应用和其它基于计算机的系统、以及所采取的动作和发送到这样的系统和从这样的系统发送的信息。基于计算机的系统固有的灵活性允许在组件之间和组件之中的许多种可能的配置、组合、以及任务和功能的划分。例如，本文讨论的过程可以使用单个设备或组件或者组合工作的多个设备或组件来实施。数据库和应用可以在单个系统上实施或跨多个系统分布。分布式组件可以顺序或并行工作。

虽然已经针对本主题的各种具体示例实施例详细描述了本主题，每个示例被提供用于解释而不是对本公开的限制。本领域技术人员在获得对前述内容的理解后，可以容易地产生对这些实施例的改动、这些实施例的变化和等同物。因此，本主题公开并不排除对本主题包括对本领域的普通技术人员而言明显的这样的修改、变化和/或添加。例如，作为一个实施例的一部分说明或描述的特征可以与另一实施例一起使用以产生更进一步的实施例。因此，本公开旨在涵盖此类改动、变化和等同物。

Claims

1.一种执行显示的文本内容的音频回放的计算机实施的方法，所述方法包括：

由一个或多个计算设备获得描述包括文本内容的多个部分的一个或多个内容项的数据；

由所述一个或多个计算设备确定位置数据，所述位置数据指示文本内容的部分中的一个或多个在与所述一个或多个计算设备相关联的显示器上的相应的位置；

由所述一个或多个计算设备接收指示用户输入的数据，所述用户输入修改文本内容的所述部分中的所述一个或多个相对于显示器的相应的位置；以及

响应于接收到指示所述用户输入的所述数据：

由所述一个或多个计算设备确定更新位置数据，所述更新位置数据指示文本内容的所述部分中的所述一个或多个的相应的更新位置；

由所述一个或多个计算设备并至少部分地基于所述更新位置数据来识别文本内容的第一部分被定位于所述显示器的回放区域内；以及

由所述一个或多个计算设备使得包括文本内容的第一部分的至少一部分的语音的音频信号回放。

2.根据权利要求1所述的计算机实施的方法，其中所述用户输入包括由用户执行的滚动输入。

3.根据前述任一权利要求所述的计算机实施的方法，还包括：由所述一个或多个计算设备在所述显示器上将一个或多个视觉效果施加到以下中的一个或以下这两者：文本内容的被定位于所述回放区域内的第一部分、或所述显示器的除了所述回放区域之外的一个或多个部分。

4.根据权利要求1所述的计算机实施的方法，其中所述内容项包括响应于搜索查询而生成的搜索结果页面。

5.根据权利要求4所述的计算机实施的方法，其中文本内容的所述多个部分包括至少部分地基于响应于所述搜索查询的一个或多个搜索结果的文本内容卡。

6.根据权利要求1所述的计算机实施的方法，其中所述音频信号包括文本内容的所述一个或多个部分的文本到语音转换。

7.根据权利要求1所述的计算机实施的方法，其中音频信号包括第一语言到第二语言的转换。

8.根据权利要求1所述的计算机实施的方法，其中所述音频信号包括与文本内容的第一部分相关联的上下文信息。

9.根据权利要求1所述的计算机实施的方法，其中文本内容的第一部分的至少一部分的语音至少部分地基于用户偏好。

10.根据权利要求1所述的计算机实施的方法，其中文本内容的第一部分的至少一部分的语音至少部分地由机器学习模型确定。

11.根据权利要求1所述的计算机实施的方法，其中由所述一个或多个计算设备使得包括文本内容的第一部分的至少一部分的语音的音频信号回放还包括：

由所述一个或多个计算设备确定文本内容的第一部分包括未识别出的文本内容；

由所述一个或多个计算设备识别包括在所述未识别出的文本内容中的字符。

12.根据权利要求1所述的计算机实施的方法，其中由所述一个或多个计算设备获得描述包括文本内容的多个部分的一个或多个内容项的数据还包括：

由所述一个或多个计算设备获得非结构化的文本内容；

由所述一个或多个计算设备从所述非结构化的文本内容中确定文本内容的多个部分。

13.根据权利要求12所述的计算机实施的方法，其中由所述一个或多个计算设备从所述非结构化的文本内容中确定文本内容的多个部分至少部分地通过机器学习模型来确定。

14.根据权利要求12所述的计算机实施的方法，其中由所述一个或多个计算设备从所述非结构化的文本内容中确定文本内容的多个部分至少部分地通过与所述非结构化的文本内容相关联的元数据来确定。

15.根据权利要求1所述的计算机实施的方法，其中所述显示器的回放区域的位置至少部分地基于用户偏好。

16.根据权利要求1所述的计算机实施的方法，其中所述显示器的回放区域被配置成允许文本内容的多个部分被定位于所述回放区域中。

17.根据权利要求1所述的计算机实施的方法，其中由所述一个或多个计算设备并至少部分地基于所述更新位置数据来识别文本内容的第一部分被定位于所述显示器的回放区域内还包括，由所述一个或多个计算设备确定在接收到指示所述用户输入的数据之后已经经过了一时间量。

18.根据权利要求1所述的计算机实施的方法，其中由所述一个或多个计算设备并至少部分地基于所述更新位置数据来识别文本内容的第一部分被定位于所述显示器的回放区域内至少部分地基于机器学习模型。

19.根据权利要求1所述的计算机实施的方法，其中所述方法还包括：

由所述一个或多个计算设备接收指示第二用户输入的数据，所述第二用户输入修改内容的所述一个或多个部分相对于显示器的相应的位置；

响应于接收到指示第二用户输入的所述数据：

由所述一个或多个计算设备确定更新位置数据，所述更新位置数据指示文本内容的所述部分中的所述一个或多个的相应的第二更新位置；

由所述一个或多个计算设备并至少部分地基于第二更新位置数据来识别文本内容的第一部分被定位于所述显示器的回放区域的外部；以及

由所述一个或多个计算设备停止所述音频信号的回放。

20.根据权利要求1所述的计算机实施的方法，还包括至少部分地基于指示用户输入的数据在屏幕上将所述回放区域的位置调整到不同的位置。

21.一种计算设备，包括：

一个或多个处理器；和

一个或多个非瞬时性计算机可读介质，存储指令，所述指令当由所述一个或多个处理器执行时使得所述计算设备执行权利要求1-20中任一权利要求所述的方法。

22.根据权利要求21所述的计算设备，其中所述计算设备包括移动计算设备。

23.一个或多个非瞬时性计算机可读介质，所述非瞬时性计算机可读介质存储指令，所述指令当由一个或多个处理器运行时使得所述一个或多个处理器执行权利要求1-20中任一权利要求所述的方法。