CN112424853A

CN112424853A - 以对文本文档的音频回放进行补充的视觉内容为特点的文本到语音界面

Info

Publication number: CN112424853A
Application number: CN201880095583.7A
Authority: CN
Inventors: B.戴维斯; O.拉德; G.博尼费斯; R.德拉托雷费尔南德斯; J.怀特; J.阿达梅克; S.托库迈; M.夸斯索夫; Y.马蒂亚斯; Y.周; R.阿米拉
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-07-24
Filing date: 2018-10-12
Publication date: 2021-02-26
Also published as: WO2020023070A1

Abstract

一种由计算设备实现的文本到语音(TTS)系统可以将图形用户界面中显示的文本内容自动转换为包括文本内容的语音的音频信号，并且计算设备可以向用户回放(例如，通过扬声器或耳机)音频信号。此外，计算设备可以在向用户回放音频信号期间进一步提供一种或更多种类型的补充视觉内容以显示给用户。作为一个示例，补充视觉内容可以包括“卡拉OK”样式的文本显示窗口，在该窗口中，文本内容的特定片段(例如，单词或句子)在音频信号的包括此类片段的语音的对应部分被回放时被突出显示或以其它方式在视觉上修饰。

Description

以对文本文档的音频回放进行补充的视觉内容为特点的文本到语音界面

相关申请的交叉引用

本申请要求享有2018年7月24日提交的美国临时专利申请第62/702,721号的优先权和权益。美国临时专利申请第62/702,721号通过引用全文合并于此。

技术领域

本公开总体上涉及文本到语音界面。更具体地，本公开涉及用于与和计算设备相关联地提供的文本内容(诸如图形用户界面中显示的文本内容)交互以及消费该文本内容的系统和方法。

背景技术

对于没有读写能力或读写能力低的用户，在与诸如例如网页的文档的文本内容交互和/或消费该文本内容时存在重大挑战。对于可能正在与他们吃力地阅读或无法阅读的语言的文本内容交互的用户，情况也是如此。还存在能够阅读的用户偏向于不阅读或身体上不能阅读的情形，例如，当他们想要向后靠的体验或他们的注意力在别处时，将页面用语言表达给他们更为有用。对于这些用户组和许多其他用户组，能够听到文档的文本内容会带来相当大的潜在益处。

然而，即使假设用户能够接收文档中的文本的音频回放，这样的音频回放也可能无法传达文档中包括的文本内容的全部上下文和/或无法使该文本内容被充分利用。例如，某些人可能无法仅专注于音频回放而变得分心。作为另一示例，某些人可能希望提高他们的读写能力或外语技能，仅文本的音频回放可能不能满足这些目的，因为这不对用户还要阅读或以其他方式在视觉上处理文本数据造成挑战。

发明内容

本公开的实施例的方面和优点将在以下描述中被部分地阐述，或者可以从该描述中获知，或者可以通过实施例的实践而获知。

本公开的一个示例方面针对一种计算机实现的方法。该方法包括通过一个或更多个计算设备获取描述文档中包括的文本内容的数据。该方法包括通过所述一个或更多个计算设备生成包括文本内容的语音的音频信号。该方法包括通过所述一个或更多个计算设备分析文本内容和音频信号之一或两者，以识别文本内容所引用的一个或更多个语义实体。该方法包括通过所述一个或更多个计算设备获取与所述一个或更多个语义实体相关联的一个或更多个视觉内容项。该方法包括通过所述一个或更多个计算设备引起向用户回放音频信号。该方法包括通过所述一个或更多个计算设备提供所述一个或更多个视觉内容项，以与向用户回放音频信号同时地显示给用户。

本公开的其它方面针对各种系统、装置、非暂时性计算机可读介质、用户界面和电子设备。

本公开的各种实施例的这些及其它特征、方面和优点将参照以下描述和所附权利要求被更好地理解。结合在本说明书中并构成本说明书的一部分的附图示出了本公开的示例实施例，并与描述一起用于解释相关原理。

附图说明

在说明书中阐述了针对本领域普通技术人员的实施例的详细讨论，该详细讨论参照附图，附图中：

图1A-图12示出了根据本公开的示例实施例的示例用户界面。

图13A描绘了根据本公开的示例实施例的示例计算系统的框图。

图13B描绘了根据本公开的示例实施例的示例计算设备的框图。

图13C描绘了根据本公开的示例实施例的示例计算设备的框图。

在多个附图中重复的附图标记旨在标识各种实施方式中的相同特征。

具体实施方式

概述

本公开的示例方面针对使用户能够与和计算设备相关联地提供的文本内容(诸如图形用户界面中显示的文本内容)交互以及消费该文本内容的系统和方法。具体地，由计算设备实现的文本到语音(TTS)系统可以将图形用户界面中显示的文本内容自动转换为包括文本内容的语音的音频信号，并且计算设备可以(例如，通过扬声器或耳机)向用户回放该音频信号。以这种方式，读写能力低、正在以外语阅读或正在寻求向后靠体验的用户可以听到大声朗读给他们的文档内容。此外，根据本公开的方面，计算设备可以在向用户回放音频信号期间进一步提供一种或更多种类型的补充视觉内容以显示给用户。作为一个示例，补充视觉内容可以包括“卡拉OK”样式的文本显示窗口，在该窗口中文本内容的特定片段(例如，单词或句子)在音频信号的对应部分回放时被突出显示或以其他方式在视觉上修饰，该对应部分包括这些片段的语音。以这种方式，当正在播放这种文本的对应语音时，用户可以容易地跟随文本。这使读写能力低或以外语阅读的用户能够提高他们的阅读/语言能力，因为他们能够同时听到和看到文本。作为另一示例，补充视觉内容可以包括视觉内容项，诸如涉及文本内容的图像或视频。例如，计算设备可以识别文本内容所引用的一个或更多个语义实体，获得与所识别的语义实体相关联(例如，描绘所识别的语义实体)的一个或更多个视觉内容项，并且可以在音频信号的回放期间显示视觉内容项。具体地，在一些实施方式中，与特定语义实体相关联的特定视觉内容项可以在音频信号的引用这些特定语义实体的部分被回放给用户的同时被显示。因此，除了用语言表达文档中包括的文本内容的音频信号回放之外，本公开的系统和方法还向用户提供补充视觉体验，该补充视觉体验在用户可控制的界面上显示正在被阅读的文本和/或相关的视觉媒体。这样，本公开的系统和方法可以将观看视频或收听无线电的简单性带给网络浏览或其他文档查看场景。

更具体地，计算设备(例如，用户的平板电脑、智能电话等)可以访问包含文本内容的文档。作为示例，计算设备可以访问和显示具有文本内容的文档，诸如网页、新闻文章、文字处理文档等。该文档可以在浏览器应用/或其他文档查看应用中显示。

用户可以请求以音频格式提供文本内容(或其一部分)。例如，用户可能无法阅读所显示语言的文本，可能视力受损，可能读写能力低，或者可能以其他方式希望文本作为语音以音频输出提供。用户可以选择文档的一部分(例如，段落)，或者可以简单地选择整个文档，并且可以请求以音频格式提供文本内容。作为用户提示的替代，计算设备可以自动进行操作以生成包括文本内容的语音的音频信号，而无需用户提示。因此，一旦用户指示他们希望接收这样的功能(例如，通过轻击音频快捷按钮、图标或其他用户界面功能)，就可以自动调用或启动从文本内容生成音频信号。

计算设备可以生成音频信号，该音频信号包括文档中包括的至少一些文本内容的语音。例如，计算设备可以包括执行各种TTS技术以将文本转换为语音的TTS系统。可以执行许多不同的TTS技术。在一个示例中，可以使用一个或更多个机器学习模型(诸如例如人工神经网络(以下称为“神经网络”)(例如，循环神经网络))从文本生成语音。机器学习模型可以在设备上实现，或者可以作为云服务的部分被访问。因此，作为一种或更多种TTS技术的结果，可以产生包括文本内容的语音的音频信号(例如，音频文件)。

计算设备可以向用户回放音频信号。例如，计算设备可以包括一个或更多个扬声器(包括例如呈耳机形式的扬声器)或与之通信(例如，通过有线或无线连接)。计算设备可以通过所述一个或更多个扬声器向用户回放音频信号，使得用户听到文档中包括的文本内容的语音。

此外，根据本公开的方面，在回放音频信号的同时，计算设备可以进一步提供一种或更多种类型的补充视觉内容以显示给用户。作为一个示例，补充视觉内容可以包括“卡拉OK”样式的文本显示窗口，在该窗口中文本内容的某些片段(例如，单词或句子)在音频信号的对应部分被回放时被突出显示或以其他方式在视觉上被修饰，该对应部分包括这些片段的语音。以这种方式，当正在播放文本的对应语音时，用户可以容易地跟随此文本。这使读写能力低或以外语阅读的用户能够提高他们的阅读/语言能力，因为他们能够同时听到和看到文字。

因此，在一些实施方式中，计算设备可以生成和提供包括文本显示区域的用户界面。文本显示区域可以向用户呈现已从文档中提取的文本。文本显示区域可以作为整个文档内的专用区域、作为文档内容上方的叠加层或面板和/或通过另一显示机制显现。当音频信号被回放给用户时，文本显示区域可以显示文本内容的当前节、上一节和下一节。

取决于包括用户的偏好、他们对语言的熟练程度、最佳滚屏或显示特性和/或内容主题中固有的复杂性和细节的变量，在文本显示区域中显示的文本量的范围可以从音频信号中正在说出的当前单词的任一侧的几个单词到当前单词的任一侧的一个或两个句子。因此，当前显示的文本可以对应于音频信号的当前正在针对其进行回放的当前部分。

在一些实施方式中，音频信号中当前正在说出的一个或多个单词以类似于卡拉OK机的样式突出显示。突出显示文本可以包括改变文本的颜色、改变文本的格式、改变文本的大小、改变文本后面的局部背景颜色或其他导致突出显示的文本在视觉上可与本文的其他周围部分区分开的视觉修饰。在一些实施方式中，已经说出的文本可以淡出，而当前正在说出的文本被加粗和突出显示，即将到来的文本处于淡出和加粗外观之间。

在一些实施方式中，在音频信号的当前部分随时间变化时(即，在音频信号被回放使得文本的不同单词随时间在音频信号中被说出时)，可以在逐个单词的基础上执行突出显示。也可以使用用于突出显示的其他基础(例如，逐个短语、逐个音节等)。此外，在一些实施方式中，文本可以被滚动经过文本显示区域，使得文本的当前正在音频信号中说出和/或在滚动中突出显示的部分在音频信号的对应部分接近并回放时进入合适的位置。

当单词被说出时焦点在单词之间的这种移动(例如，通过突出显示和/或滚动)帮助用户容易地看到回放在所显示的文本的当前部分中所达到的位置。在有读写问题或不熟悉该语言并希望提高其能力的用户，它也可以帮助他们变得更加精通该语言。

作为另一示例，补充视觉内容可以包括与文本内容相关的视觉内容项，诸如图像或视频。具体地，在一些实施方式中，计算设备可以识别文本内容所引用的一个或更多个语义实体，获得与所识别的语义实体相关联(例如，描绘所识别的语义实体)的一个或更多个视觉内容项，并且可以在音频信号的回播期间显示视觉内容项。具体地，在一些实施方式中，与特定语义实体相关联的特定视觉内容项可以在音频信号的引用此类特定语义实体的部分被回放给用户的同时显示。

更具体地，计算设备可以分析文本内容和音频信号之一或二者，以识别文本内容所引用的一个或更多个语义实体。语义实体可以包括人物、地点、事物、日期/时间、事件、组织或其它语义实体。作为一个示例，存储在计算设备上或通过云服务访问的机器学习模型可以分析文本内容和/或音频信号的至少一部分，以识别文本内容所引用的一个或更多个语义实体。作为另一示例，文本内容和/或音频信号的片段(例如，单词)可以对照于语义实体的数据库进行匹配，以辨认一个或更多个语义实体。还可以执行各种自然语言处理技术来辨认语义实体。

在一些实施方式中，可以在用户界面的媒体显示区域内显示视觉内容项。媒体显示区域可以是对文本显示区域的补充，并且可以用于展示与当前正在显示和/或活跃在焦点中的文本相关的视觉内容。因此，在一些实施方式中，随着焦点移动通过文本的单词，计算设备可以更新媒体显示区域以展示与正在朗读的单词、概念或主题相关的媒体。例如，如果当前处于焦点中的单词是“狗”，则媒体显示区域可以展示狗的图像，或者如果当前处于焦点中的单词是关于如何建造小木屋的句子的部分，则媒体显示区域可以显示展示如何修建小木屋的动画GIF。

所显示的视觉内容项可以从文档本身中提取(例如，页面中包括的图像或从页面链接的图像)，或者可以从诸如知识图谱或谷歌图片的源中获取。在一些实施方式中，可以将与视觉内容项相关联的元数据对照于语义实体进行匹配。作为示例，显示的媒体可以采取诸如图像、GIF或其它动画和/或视频的视觉内容的形式。在视频的情况下，可以存在用于将从视频输出的音频与音频信号的回放进行调和的机制。备选地，选择播放视频内容可能会暂停音频信号的回放。

在一些实施方式中，在某些情况下根本不出现媒体显示区域。例如，如果没有要显示的相关媒体或用户选择不展示媒体，则媒体显示区域可以不被包括在用户界面中。在一些实施方式中，媒体显示区域可以邻接文本显示区域或被提供在文本显示区域内(例如，作为其子部分)。作为另一示例，在一些实施方式中，视觉内容项可以作为文本显示区域的背景，并且在文本显示区域内显示的文本可以叠加在一个或更多个视觉内容项上。在一些实施方式中，如何显示视觉内容项可以取决于设备的取向或是设备的取向的函数。例如，在一些实施方式中，如果设备处于横向取向，则回放界面可以全屏展示，而如果设备处于纵向取向，则回放界面可以展示在显示屏的一部分(例如，上部区域)上，而文档展示在显示屏的分离部分(例如，下部区域)中。

在一些实施方式中，计算设备可以识别语义实体，并与包括文本内容的语音的音频信号的生成和/或回放同时地实时获得视觉内容项。因此，在用户访问文档并请求音频回放之后，可以实时生成回放体验。

在一些实施方式中，计算设备可以与将音频信号回放给用户同时但是在音频信号的引用一个或更多个语义实体的相应部分的回放之前实时地识别语义实体并获得视觉内容项。更具体地，计算设备可以预先提示视觉内容项而不是在音频信号中说出对应单词时获得内容。例如，当页面处理开始时，设备可以处理文档中领先于音频信号的当前位置的文本内容。规则和/或启发法的组合可以用于领先于音频信号进行处理。机器学习模型还可以用于例如评估与内容相关的用户响应(例如，某些内容的“粘性”如何)，并基于此类用户响应数据在后续操作中提供改善的内容预测。

在一些实施方式中，用户界面可以进一步包括持续时间显示区域。持续时间显示区域可以向用户展示他们在整个文档的回放中进行了多久以及他们在总的回放体验中的当前位置。持续时间显示区域可以以许多不同的方式传达此信息，包括作为直线条或通过体现页面结构使得文档的各个不同方面(例如，诸如标题、子标题、正文、图像和说明文字)被体现。

持续时间显示区域可以允许用户快速且轻松地将回放体验移动到页面的特定部分。这允许用户快速地导航到他们希望听到通过音频播放的特定部分的文本。

可以向用户提供许多不同的控件。用户可用的控件可以包括但不限于播放、暂停、停止、快进、倒带、重新开始和/或移至下一个或上一个文档(例如，新闻文章)。还可以存在允许用户以预定义的间隔向前或向后跳转(例如向前/向后跳转30秒)或选择要循环播放的一部分文本的功能。用户可用的控件还可以包括改变回放的速度以及用于大声朗读文本的声音和语言的功能。

在一些实施方式中，还可以使用户能够将回放体验置于最小化状态或后台状态。例如，这将会允许用户在继续回放文档内容的同时在其设备(例如，智能电话)上从事其它任务。在一些实施方式中，当被置于后台状态时，回放用户界面(例如，文本显示区域和/或媒体显示区域)可以被减小尺寸、折叠和/或从屏幕移除。在一个示例中，如果用户在文档显示窗口中滚动文档或以其它方式与文档交互，则回放用户界面(例如，文本显示区域和/或媒体显示区域)可以自动减小尺寸、折叠和/或从屏幕移除，使得文档被给予更大的屏幕空间。

因此，在一些实施方式中，用户还可以滚动文档并轻击段落以跳至该段落或重放一些比特。在一些实施方式中，如果用户想要在做其它事情的同时保持收听，则用户可以将回放保持在后台。用户可以与通知交互以控制回放。

在一些实施方式中，除了补充视觉内容之外或代替补充视觉内容，计算设备还可以添加附加音频内容以增强收听体验。例如，计算设备可以添加上下文适当的背景音乐或声音效果。因此，在一些实施方式中，可以获得与文本内容内所识别的语义实体相关的附加音频内容，并且可以将该附加音频内容与文本内容的语音一起插入到音频信号中。

在一些实施方式中，当用户离线时，用户也可以获得文档的回放体验。这允许用户即使当他们没有互联网连接时也可以音频格式播放文本内容。该离线功能可以由用户控制(例如，通过主动选择使页面在离线时可用)或自动完成(例如，通过缓存所访问的页面或在用户访问页面之前预缓存页面)。

本公开的另外的方面针对用于控制回放体验的各个方面的机器智能。作为一个示例，在一些实施方式中，机器学习模型可以用于识别页面的重要部分以供音频回放，并生成一个或更多个自然的说话声音。例如，当正在被阅读的文本引述两人或更多人(例如，在采访、新闻发布会、戏剧对话等中)时，可以生成多种不同的说话声音。这提供了阅读全世界许多不同语言的数十亿网页的能力。作为另一示例，机器智能(例如，机器学习模型)可以用于分析文档的内容并生成可被包括在音频回放中的文档摘要。

作为另一示例，机器智能(例如，机器学习模型)可以用于理解文档的结构。例如，如果在文档中有侧边栏、脚注、尾注或其它辅助文本项，则计算设备可以使用机器智能来理解将语音等辅助文本项插入音频信号的位置。除了结构之外，机器智能可以用于理解和生成叙述流。

作为另一示例，如果在文本中引用了某个内容(例如，通过超链接)，则计算系统可以访问此内容并将其插入到音频信号中包括的语音中。这可以防止用户需要跟随链接并访问整个新文档。此外，机器智能可以用于确定如何将此类附加内容编织到主要叙述中。

这里描述的任何机器智能(例如，机器学习模型)可以基于用户反馈(例如，所执行的操作正确或不正确的用户指示)来训练。可以在多个用户之间聚集用户反馈以生成(例如，重新训练)全局模型和/或可以将用户特定的反馈用于使个性化模型个性化(例如，重新训练个性化模型)。例如，用户反馈可以指示是否在错误的位置引入了侧边栏和/或通过超链接访问和插入的内容是否有用/没用和/或相关/不相关。基于用户反馈重新训练模型可以使改善的模型性能能够向前发展。

因此，除了用语言表达文档中包括的文本内容的音频信号的回放之外，本公开内容的系统和方法还向用户提供补充视觉体验，该补充视觉体验显示正在被阅读的文本和/或用户可控界面中的相关视觉媒体。这样，本公开的系统和方法可以将观看视频或收听无线电的简单性带给网络浏览或其它文档查看场景。

本公开的系统和方法提供了许多技术效果和益处。作为一个示例技术效果和益处，本公开的回放体验可以减少消耗文档所需的屏幕交互(例如，滚动操作)的数量。每次屏幕交互需要处理和存储器资源来处置和显示(例如，滚动后在不同位置重新显示文档)的结果。通过减少此类屏幕交互的数量，回放体验可以节省计算资源。作为另一示例技术效果和益处，本公开的系统和方法可以自动地从链接页面或获自主文档以外的不同来源的其它辅助内容中检索和回放内容。通过自动检索和回放这样的内容，不需要用户单独地加载和显示这样的附加源(例如，链接的网页)。结果，节省了网络和设备资源，因为不需要完整获取附加源并将其显示给用户。

作为又一示例，本公开的系统和方法提供了特征，该特征指定使用户能够输入、进行选择和/或提交命令的机制。例如，在一些实施方式中，本公开的系统和方法可以包括或提供图形用户界面，该图形用户界面包括允许用户直接访问音频信号的备选图形快捷方式，该音频信号包括用户界面中包括的文本内容的语音。

现在参照附图，将进一步详细讨论本公开的示例实施例。

示例用户界面

图1A-图12示出了根据本公开的示例实施例的示例用户界面。

图1A-图1F示出了回放体验的示例用户流程。在图1A中，用户打开了文档，在这种情况下该文档是网页。如底部被圈出的区域52所示，向用户提供图形音频快捷方式特征(例如，这里被示出为扬声器图标)，其使用户能够请求网页的文本内容的音频回放。在图1B中，用户已经选择了音频快捷方式特征，结果，顶部栏54已经展开。提示音和/或动画可能伴随此动作。在图1C中，音频回放和文本内容的突出显示已开始。具体地，单词“Most of”与这些单词的音频回放相对应地被突出显示。用户可以轻击带有突出显示的文本的区域以调出控制小部件。控制小部件中可包括的可能按钮包括倒带、暂停/播放、速度控制等。在图1D中，用户正在滚动通过网页到达网页中较下/较远的一部分网页。在图1E中，用户停止了滚动。此外，“从这里播放”按钮56显示在用户界面所示的第一段上方。在图1F中，用户已经选择了从这里播放按钮56，并且回放体验从所选择的段落开始。

图2示出了作为浏览器用户界面的部分的示例备选启动功能。用户可以选择被圈出的音频快捷方式特征(例如，这里再次被示出为扬声器图标)以开始回放体验。备选地，回放体验可以基于页面入口点而自动播放。

图3示出了示例标题屏幕。例如，顶部栏可以转换并向下滑动以成为回放体验的部分。在各种实施方式中，品牌声音可以标记体验的开始，可以用语言表达页面标题和/或发布者，可以重新使用发布者图像，可以提供数据使用的时间和估计，和/或可以呈现其它信息。

图4示出了示例控件。控件可以叠加在回放界面的顶部。控件可以包括速度调节402、全屏404、用于离线回放的下载406和/或其它控件。

图5示出了包括视觉内容项502的示例回放。例如，视觉内容项502可以是界面背景中的全出血(full bleed)图像。图像可以来自文档、来自知识图谱和/或来自其它位置。图像可以在背景中动态平移。回放体验可以包括逐字突出显示、TTS读出、无文档/网页滚动(例如，保持聚焦于回放界面)、回放进度指示器和/或其它特征。

图6示出了处于示例折叠状态的回放界面。例如，在文档的用户滚动或其它用户交互时，回放界面可以折叠以启用文档浏览。

图7示出了示例快进菜单选项。例如，进度条700和文档都可以包括书签702，书签702允许用户快进到文档的特定部分。

图8示出了示例用户界面的呈现，该示例用户界面包括文本显示区域和紧接该文本显示区域的媒体显示区域。左侧是没有回放用户界面的文档。一旦回放开始，如中间窗格所示，回放用户界面802被呈现在文档804上方。右侧是回放界面的特写，其中标识了各种组件。图9示出了包括媒体显示区域902的另一示例用户界面。

图10A-图10C示出了不同的示例时间线选项，其使得能够在文档结构的各部分之间进行快进或其它跳过。图10A示出了具有沿着进度条的文本气泡的文档结构/书签。图10B示出了通过将进度条分成不同部分的文档结构/书签。图10C示出了具有沿着进度条放置的垂直列/条的文档结构/书签。在一些实施方式中，文档结构/书签可以从HTML标签派生。

图11示出了在后台发生的回放体验的示例。通知1100(例如，粘性通知)可以允许用户暂停/恢复音频回放。通知1100还可以包括较小的媒体显示区域1102，如图11所示。

图12示出了示例界面，该示例界面向用户提供关于接下来要播放什么的建议。例如，在音频信号的回放完成之后，回放界面可以向用户建议相关文章以增进体验。

示例设备和系统

图13A描绘了根据本公开的示例实施例的示例计算系统100的框图。系统100包括通过网络180通信地耦合的用户计算设备102、服务器计算系统130和训练计算系统150。

用户计算设备102可以是任何类型的计算设备，诸如例如个人计算设备(例如，膝上型电脑或台式电脑)、移动计算设备(例如，智能手机或平板电脑)、游戏控制台或控制器、可穿戴计算设备、嵌入式计算设备或任何其它类型的计算设备。

用户计算设备102包括一个或更多个处理器112和存储器114。一个或更多个处理器112可以是任何合适的处理设备(例如，处理器核心、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是一个处理器或在操作上连接的多个处理器。存储器114可以包括一个或更多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等及其组合。存储器114可以存储由处理器112运行以使用户计算设备102执行操作的数据116和指令118。

用户计算设备102可以包括实现这里描述的回放体验的音频回放系统119。音频回放系统119可以是应用、插件(例如，用于浏览器应用的插件)或可由一个或更多个处理器112实现的其它形式的软件。用户计算设备102可以访问一个或更多个文档190(例如，通过网络180和/或从本地存储器114)，并且音频回放系统119可以为这样的(多个)文档190中包括的文本内容生成音频回放体验。

在一些实施方式中，用户计算设备102(例如，音频回放系统119)可以存储或包括一个或更多个机器学习模型120。例如，机器学习模型120可以是或可以以其它方式包括诸如神经网络(例如，深度神经网络)或其它类型的机器学习模型(包括非线性模型和/或线性模型)的各种机器学习模型。神经网络可以包括前馈神经网络、循环神经网络(例如，长期短期记忆循环神经网络)、卷积神经网络或其它形式的神经网络。

在一些实施方式中，一个或更多个机器学习模型120可以通过网络180从服务器计算系统130接收，被存储在用户计算设备存储器114中，然后由一个或更多个处理器112使用或以其它方式实现。在一些实施方式中，用户计算设备102可以实现单个机器学习模型120的多个并行实例。

另外地或备选地，一个或更多个机器学习模型140可以被包括在服务器计算系统130中或以其它方式由服务器计算系统130存储和实现，该服务器计算系统130根据客户端-服务器关系与用户计算设备102通信。例如，机器学习模型140可以由服务器计算系统140实现为网络服务(例如，语义实体识别服务)的一部分。因此，可以在用户计算设备102处存储和实现一个或更多个模型120和/或可以在服务器计算系统130处存储和实现一个或更多个模型140。

音频回放系统还可以包括TTS系统121。TTS系统可以执行任何数量的TTS技术来生成包括文本语音的音频信号。音频回放系统还可以包括视觉内容处理机123。视觉内容处理机123可以获得与语义实体相关联的视觉内容，并且可以提供这样的视觉内容以供在适当的时间显示。

用户计算设备102还可以包括接收用户输入的一个或更多个用户输入组件122。例如，用户输入组件122可以是对用户输入对象(例如，手指或手写笔)的触摸敏感的触敏组件(例如，触敏显示屏或触摸板)。触敏组件可以用于实现虚拟键盘。其它示例用户输入组件包括麦克风、传统键盘或用户可通过其提供用户输入的其它装置。

用户计算设备102还可以包括一个或更多个扬声器124。扬声器124可以物理地连接到设备102或不物理地连接到设备102。扬声器124可以包括独立扬声器、耳塞等。

服务器计算系统130包括一个或更多个处理器132和存储器134。一个或更多个处理器132可以是任何合适的处理设备(例如，处理器核心、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是一个处理器或在操作上连接的多个处理器。存储器134可以包括一个或更多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等及其组合。存储器134可以存储由处理器132运行以使服务器计算系统130执行操作的数据136和指令138。

在一些实施方式中，服务器计算系统130包括一个或更多个服务器计算设备或以其它方式由一个或更多个服务器计算设备来实现。在服务器计算系统130包括多个服务器计算设备的情况下，这样的服务器计算设备可以根据顺序计算架构、并行计算架构或其某种组合来操作。

如上所述，服务器计算系统130可以存储或以其它方式包括一个或更多个机器学习模型140。例如，模型140可以是或可以其它方式包括各种机器学习模型。示例机器学习模型包括神经网络或其它多层非线性模型。示例神经网络包括前馈神经网络、深度神经网络、循环神经网络和卷积神经网络。

用户计算设备102和/或服务器计算系统130可以经由与通过网络180通信地耦合的训练计算系统150的交互来训练模型120和/或140。训练计算系统150可以与服务器计算系统130分离，或者可以是服务器计算系统130的一部分。

训练计算系统150包括一个或更多个处理器152和存储器154。一个或更多个处理器152可以是任何合适的处理设备(例如，处理器核心、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是一个处理器或在操作上连接的多个处理器。存储器154可以包括一个或更多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等及其组合。存储器154可以存储由处理器152运行以使训练计算系统150执行操作的数据156和指令158。在一些实施方式中，训练计算系统150包括一个或更多个服务器计算设备或以其它方式由一个或更多个服务器计算设备来实现。

训练计算系统150可以包括模型训练器160，该模型训练器160使用各种训练或学习技术(诸如例如错误的反向传播)来训练存储在用户计算设备102和/或服务器计算系统130处的机器学习模型120和/或140。在一些实施方式中，执行错误的反向传播可以包括随时间执行截断的反向传播。模型训练器160可以执行多种泛化技术(例如，权重衰减、丢弃等)，以提高正在被训练的模型的泛化能力。

具体地，模型训练器160可以基于一组训练数据162来训练机器学习模型120和/或140。训练数据162可以包括例如用户反馈或描述响应于各种回放体验设置或操作而执行的用户动作的数据。

在一些实施方式中，如果用户已经提供了同意，则训练示例可以由用户计算设备102提供。因此，在这样的实施方式中，提供给用户计算设备102的模型120可以通过训练计算系统150在从用户计算设备102接收到的用户特定的数据上来训练。在一些情况下，该过程可以被称为使模型个性化。

模型训练器160包括用于提供所期望的功能的计算机逻辑。可以以控制通用处理器的硬件、固件和/或软件来实现模型训练器160。例如，在一些实施方式中，模型训练器160包括存储在存储设备上、加载到存储器中并由一个或更多个处理器运行的程序文件。在其它实施方式中，模型训练器160包括存储在有形的计算机可读存储介质(诸如RAM硬盘或光学介质或磁介质)中的一组或更多组计算机可运行指令。

网络180可以是任何类型的通信网络，诸如局域网(例如，内部网)、广域网(例如，互联网)或其某种组合，并且可以包括任何数量的有线或无线链路。一般，可以使用各种通信协议(例如，TCP/IP、HTTP、SMTP、FTP)、编码或格式(例如，HTML、XML)和/或保护方案(例如，VPN、安全HTTP、SSL)经由任何类型的有线和/或无线连接来承载通过网络180的通信。

图13A示出了可用于实现本公开的一个示例计算系统。也可以使用其它计算系统。例如，在一些实施方式中，用户计算设备102可以包括模型训练器160和训练数据集162。在这样的实施方式中，模型120可以在用户计算设备102处既被本地训练又被本地使用。在此类实施方式的一些中，用户计算设备102可以实现模型训练器160以基于用户特定的数据来使模型120个性化。

图13B描绘了根据本公开的示例实施例执行的示例计算设备10的框图。计算设备10可以是用户计算设备或服务器计算设备。

计算设备10包括多个应用(例如，应用1至应用N)。每个应用包含其自己的机器学习库和(多个)机器学习模型。例如，每个应用可以包括机器学习模型。示例应用包括文本消息收发应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。

如图13B所示，每个应用可以与计算设备的许多其它组件(诸如例如一个或更多个传感器、上下文管理器、设备状态组件和/或附加组件)通信。在一些实施方式中，每个应用可以使用API(例如，公共API)与每个设备组件通信。在一些实施方式中，每个应用使用的API特定于该应用。

图13C描绘了根据本公开的示例实施例执行的示例计算设备50的框图。计算设备50可以是用户计算设备或服务器计算设备。

计算设备50包括多个应用(例如，应用1至应用N)。每个应用与中央智能层通信。示例应用包括文本消息收发应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。在一些实施方式中，每个应用可以使用API(例如，跨所有应用的公共API)与中央智能层(和存储在其中的(多个)模型)通信。

中央智能层包括多个机器学习模型。例如，如图13C所示，相应的机器学习模型(例如，模型)可以被提供给每个应用，并由中央智能层管理。在其它实施方式中，两个或更多应用可以共享单个机器学习模型。例如，在一些实施方式中，中央智能层可以为所有应用提供单个模型(例如，单个模型)。在一些实施方式中，中央智能层被包括在计算设备50的操作系统内或以其它方式由计算设备50的操作系统来实现。

中央智能层可以与中央设备数据层通信。中央设备数据层可以是用于计算设备50的数据的集中式存储库。如图13C所示，中央设备数据层可以与计算设备的许多其它组件(诸如例如一个或更多个传感器、上下文管理器、设备状态组件和/或附加组件)通信。在一些实施方式中，中央设备数据层可以使用API(例如，私有API)与每个设备组件通信。

附加公开

这里讨论的技术参照服务器、数据库、软件应用和其它基于计算机的系统、以及所采取的动作及发送给此类系统和来自此类系统的信息。基于计算机的系统的固有灵活性允许组件之间的对任务和功能的多种可能的配置、组合和划分。例如，这里讨论的过程可以使用单个设备或组件或组合工作的多个设备或组件来实现。数据库和应用可以在单个系统上实现，或分布在多个系统上。分布式组件可以顺序地或并行地操作。

虽然已经相对于本主题的各种特定示例实施例详细描述了本主题，但是每个示例作为说明而非对本公开的限制被提供。本领域技术人员在理解了前述内容之后可以容易地对此类实施例进行更改、变化和等同。因此，对于本领域普通技术人员将容易明显的是，主体公开内容不排除包括对本主题的此类修改、变化和/或添加。例如，作为一个实施例的部分示出或描述的特征可以与另一实施例一起使用以产生又一实施例。因此，意图是本公开覆盖这样的更改、变化和等同。

Claims

1.一种计算机实现的方法，该方法包括：

通过一个或更多个计算设备获取描述文档中包括的文本内容的数据；

通过所述一个或更多个计算设备提供用于显示给用户的图形用户界面，其中图形用户界面呈现文档中包括的文本内容的至少一部分，以及其中图形用户界面包括图形音频快捷方式特征，该图形音频快捷方式特征使用户能够请求文本内容的至少一部分的音频回放；

通过所述一个或更多个计算设备接收选择图形音频快捷方式特征的用户输入；

通过所述一个或更多个计算设备生成包括文本内容的语音的音频信号；

通过所述一个或更多个计算设备分析文本内容和音频信号之一或两者，以识别文本内容所引用的一个或更多个语义实体；

通过所述一个或更多个计算设备获取与所述一个或更多个语义实体相关联的一个或更多个视觉内容项；

通过所述一个或更多个计算设备引起向用户回放音频信号；以及

通过所述一个或更多个计算设备提供所述一个或更多个视觉内容项以与向用户回放音频信号同时地在图形用户界面中显示给用户。

2.根据权利要求1所述的计算机实现的方法，其中通过所述一个或更多个计算设备提供所述一个或更多个视觉内容项以与向用户回放音频信号同时地显示给用户包括：在发生音频信号的引用语义实体的相应部分的回放的相应时间段期间，通过所述一个或更多个计算设备提供显示多个视觉内容项中的相应的一个，这样的相应的视觉内容项与所述语义实体相关联。

3.根据任何前述权利要求所述的计算机实现的方法，其中通过所述一个或更多个计算设备获取描述文档中包括的文本内容的数据包括：通过所述一个或更多个计算设备获取描述文档中包括的文本内容的子集的数据，该子集已由用户选择，其中仅相对于文本内容的已由用户选择的子集执行所述生成、分析和获取。

4.根据任何前述权利要求所述的计算机实现的方法，其中通过所述一个或更多个计算设备获取与所述一个或更多个语义实体相关联的所述一个或更多个视觉内容项包括：通过所述一个或更多个计算设备从文档获取一个或更多个视觉内容项。

5.根据任何前述权利要求所述的计算机实现的方法，其中通过所述一个或更多个计算设备获取与所述一个或更多个语义实体相关联的所述一个或更多个视觉内容项包括：通过所述一个或更多个计算设备从不同于文档的外部数据源获取一个或更多个视觉内容项。

6.根据任何前述权利要求所述的计算机实现的方法，其中通过所述一个或更多个计算设备获取与所述一个或更多个语义实体相关联的所述一个或更多个视觉内容项包括：通过所述一个或更多个计算设备访问知识图谱，以获取知识图谱内的与所述一个或更多个语义实体相关联的视觉内容项。

7.根据任何前述权利要求所述的计算机实现的方法，其中所述一个或更多个视觉内容项包括以下中的一个或更多个：静止图像、动画或视频。

8.根据任何前述权利要求所述的计算机实现的方法，进一步包括：

通过所述一个或更多个计算设备在图形用户界面中提供文本显示区域，以与向用户回放音频信号同时地显示给用户，其中文本显示区域显示文本的至少一部分，文本的所述至少一部分对应于音频信号的当前正在针对其发生回放的当前部分。

9.根据权利要求8所述的计算机实现的方法，其中通过所述一个或更多个计算设备提供所述一个或更多个视觉内容项以与向用户回放音频信号同时地显示给用户包括：通过所述一个或更多个计算设备提供所述一个或更多个视觉内容项以在文本显示区域内或邻接文本显示区域显示给用户。

10.根据权利要求9所述的计算机实现的方法，其中通过所述一个或更多个计算设备提供所述一个或更多个视觉内容项以在文本显示区域内或邻接文本显示区域显示给用户包括：通过所述一个或更多个计算设备提供所述一个或更多个视觉内容项作为文本显示区域的背景，以及其中文本的在文本显示区域内显示的所述部分叠加在所述一个或更多个视觉内容项上。

11.根据权利要求8-10中任一项所述的计算机实现的方法，进一步包括：

通过所述一个或更多个计算设备突出显示文本的在文本显示区域内显示的所述部分中包括的单词，该单词对应于音频信号的当前正在针对其回放的当前部分，其中所述单词是文本的在文本显示区域内显示的所述部分的子集，以及其中随着音频信号的当前部分随时间变化，在逐字的基础上重复执行所述突出显示。

12.根据权利要求8-11中任一项所述的计算机实现的方法，其中通过所述一个或更多个计算设备提供文本显示区域以供显示包括：通过所述一个或更多个计算设备与向用户回放音频信号同时地将文本滚动通过文本显示区域。

13.根据任何前述权利要求所述的计算机实现的方法，进一步包括，在通过所述一个或更多个计算设备提供所述一个或更多个视觉内容项以供显示之后：

通过所述一个或更多个计算设备接收描述与文档的用户交互的数据；以及

响应于接收到描述与文档的用户交互的数据，通过所述一个或更多个计算设备折叠或停止所述一个或更多个视觉内容项的显示，以增大用户界面的其中显示文档的部分的相对尺寸。

14.根据任何前述权利要求所述的计算机实现的方法，其中文档包括网页。

15.根据任何前述权利要求所述的计算机实现的方法，其中通过所述一个或更多个计算设备分析文本内容和音频信号之一或两者以识别文本内容所引用的一个或更多个语义实体以及通过所述一个或更多个计算设备获取与所述一个或更多个语义实体相关联的所述一个或更多个视觉内容项与包括文本内容的语音的音频信号的生成同时地实时执行。

16.根据任何前述权利要求所述的计算机实现的方法，其中通过所述一个或更多个计算设备分析文本内容和音频信号之一或两者以识别文本内容所引用的所述一个或更多个语义实体以及通过所述一个或更多个计算设备获取与所述一个或更多个语义实体相关联的所述一个或更多个视觉内容项与向用户回放音频信号同时地实时执行。

17.根据任何前述权利要求所述的计算机实现的方法，其中通过所述一个或更多个计算设备分析文本内容和音频信号之一或两者以识别文本内容所引用的所述一个或更多个语义实体以及通过所述一个或更多个计算设备获取与所述一个或更多个语义实体相关联的所述一个或更多个视觉内容项与向用户回放音频信号同时但是在回放音频信号的引用所述一个或更多个语义实体的相应部分之前实时执行。

18.一种计算设备，包括：

一个或更多个处理器；以及

存储指令的一个或更多个非暂时性计算机可读介质，所述指令当由所述一个或更多个处理器运行时使计算设备执行根据权利要求1-17中任一项所述的方法。

19.根据权利要求18所述的计算设备，其中计算设备包括移动计算设备。

20.一个或更多个非暂时性计算机可读介质，其存储指令，所述指令当由一个或更多个处理器运行时使所述一个或更多个处理器执行根据权利要求1-17中任一项所述的方法。