CN116386677A

CN116386677A - 故事读者阅读中断的算法确定

Info

Publication number: CN116386677A
Application number: CN202211622575.8A
Authority: CN
Inventors: 柴塔尼亚·加尔普雷; 埃文·菲舍尔; 埃里克·刘; 杨鹏; 艾米丽·侯; 维多利亚·方
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-08-27
Filing date: 2018-08-27
Publication date: 2023-07-04
Also published as: EP3844745B1; CN112740327A; CN116386679A; EP4191562A1; US20240135960A1; WO2020046269A1; EP3844745A1; US11862192B2; EP4191563A1; CN116386678A; US20210225392A1; EP4191561A1

Abstract

本公开涉及故事读者阅读中断的算法确定。提供了用于增强计算设备检测用户何时已经中断阅读文本源的能力的技术。一种示例方法包括：接收包括与文本源相关联的口头字词的音频数据，其中，该音频数据包括第一持续时间和第二持续时间；比较音频数据与文本源的数据，其中音频数据的第一持续时间与文本源的数据相对应；由处理设备计算音频数据的第二持续时间与文本源的数据之间的对应度量；以及响应于确定对应度量满足阈值，传送停止将音频数据与文本源的数据进行比较的信号。

Description

故事读者阅读中断的算法确定

分案说明

本申请属于申请日为2018年8月27日的中国发明专利申请201880096938.4的分案申请。

技术领域

本公开涉及基于计算机的人类话音识别的领域，并且尤其涉及增强计算机设备确定用户不再大声阅读文本源内容的能力。

背景技术

虚拟助理的能力和使用正在迅速扩展。传统的虚拟助理包括一些形式的计算机人机界面，其使人类能够与虚拟助理进行交互并使虚拟助理执行任务或服务。虚拟助理通常会记录并理解人类话音，并且可以通过合成答复来进行响应。虚拟助理可以响应于基于触摸或手势的命令来发起，或者可以连续地分析其环境以检测口头命令。当检测到该命令时，虚拟助理可以响应或执行一个或多个动作。

发明内容

下文是本公开的简化发明内容以便提供对本公开的一些方面的基本理解。此发明内容不是本公开的广泛概要。它既不旨在标识本公开的关键或决定性元素，也不旨在划定本公开的特定实施方式的任何范围或权利要求的任何范围。其唯一目的是为了以简化形式呈现本公开的一些构思作为稍后呈现的更详细描述的序言。

根据本公开的第一方面，提供了一种方法，包括：接收包括与文本源相关联的口头字词的音频数据，其中，所述音频数据包括第一持续时间和第二持续时间；比较所述音频数据与所述文本源的数据，其中所述音频数据的第一持续时间与所述文本源的数据相对应；由处理设备计算所述音频数据的第二持续时间与所述文本源的数据之间的对应度量；以及响应于确定所述对应度量满足阈值，传送停止将音频数据与所述文本源的数据进行比较的信号。

所述文本源可以包括书，并且其中所述音频数据的第一持续时间包括所述书的口头字词。所述方法可以进一步包括：响应于确定所述音频数据的第二持续时间不存在所述文本源的内容，提示用户退出故事时间模式。传送所述信号可以进一步包括传送停用捕获音频数据的一个或多个麦克风的信号。所述文本源的数据可以包括音素数据。比较所述音频数据可以包括计算所述文本源的音素数据和所述音频数据的音素数据之间的音素编辑距离。计算所述音频数据的第二持续时间与所述文本源的数据之间的所述对应度量可以包括基于多个音素编辑距离来计算所述对应度量。确定所述对应度量满足阈值可以包括确定所述对应度量在阈值持续时间内低于或高于阈值。确定所述对应度量满足阈值可以指示所述音频数据的第二持续时间包括与所述文本源的内容不同的内容。

根据本公开的第二方面，一种系统包括处理设备，所述处理设备被配置成：接收包括与文本源相关联的口头字词的音频数据，其中所述音频数据包括第一持续时间和第二持续时间；比较所述音频数据与所述文本源的数据，其中所述音频数据的第一持续时间与所述文本源的数据相对应；计算所述音频数据的第二持续时间与所述文本源的数据之间的对应度量；以及响应于确定所述对应度量满足阈值，传送停止将所述音频数据与所述文本源的数据进行比较的信号。

所述系统可以包括数据存储。所述系统可以包括用于通过诸如局域网和/或广域网的网络进行通信的通信系统。所述系统可以是，可以被包括在虚拟助理中或可以被配置成实现虚拟助理。所述系统可以被配置成实现第一方面的方法。

根据本公开的第三方面，一种计算机程序产品，其被配置成使得当由处理设备处理时，所述计算机程序产品使处理设备执行第一方面的方法。

根据本公开的任何方面在上面或者下面关于任何特定实施例定义的特征的个别特征和/或特征的组合可以在任何其他方面或实施方式中个别地、单独地，或与任何其他定义的特征结合使用。此外，本公开旨在覆盖被配置成执行关于方法和/或使用或产生、使用或制造本文中描述的任何装置特征的方法的本文中描述的任何特征的装置。

附图说明

在附图的图中以示例而非限制的方式图示本公开。

图1图示根据本公开的实施方式的具有一个或多个计算设备的示例环境。

图2是图示根据本公开的实施方式的具有组件和模块的示例计算设备的框图，该组件和模块用于比较从用户输入导出的音素数据和从文本源导出的音素数据。

图3是图示根据本发明的实施方式的具有组件和模块的示例计算设备的框图，该组件和模块用于基于用户的音频输入来标识文本源中的位置。

图4是图示根据本发明的实施方式的具有组件和模块的示例计算设备的框图，该组件和模块用于提供物理效果以增强一个或多个用户的体验。

图5是图示根据本公开的实施方式的方法的示例的流程图。

图6是图示根据本公开的实施方式的方法的示例的流程图。

图7是图示根据本公开的实施方式的方法的示例的流程图。

图8是图示根据本公开的实施方式的方法的示例的流程图。

图9是图示根据本公开的实施方式的计算设备的另一示例的框图。

结合以下详细描述进行观察时，可以更好地理解这些附图。

具体实施方式

现代计算设备通常提供检测和理解人类话音的特征。这些特征可以与虚拟助理相关联，该虚拟助理可以经由资源受限的计算设备(诸如智能扬声器、移动电话、智能手表或其他用户设备)访问。计算设备可以与可以记录人类话音并且可以使用本地和远程计算资源的组合来分析人类话音的麦克风相关联。分析话音通常是资源密集型操作，并且计算设备可以被配置成执行计算设备本地的一些处理，并且具有在服务器处或经由云服务远程执行的一些处理。许多虚拟助理使用一些形式的远程话音识别服务，其将音频数据看作输入并将音频数据转换为文本，该文本被返回给计算设备。

在当用户大声阅读文本源时计算设备尝试使用传统的虚拟助理特征进行跟随时，会出现许多技术问题。因为传统的虚拟助理可能无法检测到用户何时完成提供音频输入(例如，用户何时继续谈论别的内容)，所以出现了一些问题。这可能潜在地导致不必要地利用虚拟助理的计算资源，诸如处理电容存储器、数据存储和/或网络带宽，在用户已经完成阅读文本之后虚拟助理继续跟随用户的文本阅读可以以其它方式来消耗。附加地或可替代地，这可能导致计算设备继续记录和/或处理用户的音频，如果用户转变到讨论私人的事情，则这可能是有问题的。当在大声阅读文本源的同时用户不跟随文本并跳过、重复或添加新内容时，检测用户何时已经中止来自于文本源的阅读可能更具挑战性。

本技术的各方面和实施方式通过增强计算设备检测用户何时已中断阅读文本源的能力来解决上述和其他缺陷。在一个示例中，该技术可以使虚拟助理能够更准确地检测到用户已经离开阅读文本源去休息一下，并且可以停用麦克风以避免捕获私人音频内容。这可能涉及接收包括与文本源相关联的口头字词的音频数据，并将音频数据与文本源的数据进行比较。该技术可以计算音频数据的内容和文本源的内容之间的对应度量。对应度量可以是基于音素数据、文本数据或其他数据的比较的概率值，并且可以涉及使用模糊匹配逻辑。当对应度量满足阈值(例如，低于最小对应阈值)时，该技术可以使用于将停止对后续音频数据的分析的信号被传送。

本文描述的系统和方法包括增强基于计算机的人类话音识别的技术领域的技术。尤其是，该技术可能会解决技术问题，诸如通过使用更好地补偿文本源的非线性阅读(例如，跳过、重复、添加内容)的比较方法从而避免无意中记录用户的私人对话。该技术还可以通过在计算设备检测到用户已中止阅读文本时停用音频传感器(例如，麦克风)和相关联的数据处理来使计算设备能够减少功率和/或其他计算资源消耗。

以下讨论的技术包括对具有或不具有虚拟助理特征的计算设备的多个增强功能。该增强功能可以单独使用，或者可以一起使用，以优化计算设备在大声阅读文本源时的跟随能力，并提供特殊效果以补充收听用户的环境。在一个示例中，环境可以包括父母向一个或多个孩子大声阅读书。在另一示例中，环境可以包括一个或多个用户向听众提供演示文稿、话音或其他表演。在任一示例中，可以基于与文本源相关联的数据的分析，使用该技术以通过特殊效果增强环境。特殊效果可以与文本源的特定部分(诸如特定的口头字词或翻页)同步。

图1图示根据本公开的一个或多个方面的示例性环境100，该示例性环境100包括正被大声阅读的文本源以及补充该环境以增强用户的收听体验的一个或多个设备。环境100可以是物理环境，诸如室内设置(例如，卧室、会议室)、室外设置(公园，野外)或其他位置。环境100可以被称为普及计算环境或普适计算环境，并且可以包括嵌入式计算功能性。嵌入式计算功能性可以提供对人类的存在敏感并响应的环境智能。在一个示例中，环境100可以包括一个或多个用户110A和110B、文本源120、一个或多个计算设备130A和130B以及一个或多个物理效果设备140A-C。

用户110A和110B可以包括能够感知文本源的内容的人类用户。用户110A可以是正在阅读文本源的内容的个人用户，或者可以是均正在阅读一个或多个文本源的一部分的多个用户。用户110A可以被称为读者、演示者、播音员、演员、其他术语或其组合。用户110B可以收听大声阅读的文本源的内容。用户110B可以或可以不与用户110A一起阅读。在一个示例中，用户110A可以是正在给儿童用户110B阅读的父母。在另一示例中，用户110A可以包括与作为听众成员的一个或多个用户110B说话的一个或多个演示者。在任一示例中，可以宣布文本源120的内容，以供一个或多个其他用户收听。

文本源120可以是可以被解释和大声阅读的任何内容源。文本源120可以包括包含数字、字符、字词、符号、图像或其组合的内容。内容可以被排列成可以在阅读时或存储后由用户说出的序列。文本源120可以是物理书或电子书、杂志、演示文稿、话音、脚本、剧本、备忘录、公告、文章、博客、帖子、消息、其他文本布置或其组合。在图1的示例中，文本源120可以是儿童读物，其包括可以向孩子大声阅读的一系列字词和图像。

可听动作112A-C可以是产生可由用户或计算设备检测到的声音的任何动作或动作的组合。用户的耳朵或与计算设备相关联的音频传感器(例如，麦克风)可以听到、感知或观察到可听动作112A-C。如图1中所示，可能有多种类型的可听动作，并且它们可能取决于声音源自何处。可听动作112A可以是第一类型的可听动作，其包括可以源自人类语音或计算机合成的语音的口声(例如，话语)。口声可以是语言口声(例如，口头字词)、非语言的口声(例如，笑、哭、咳嗽)、其他声音或它们的组合。可听动作112B可以是第二类型的可听动作，其包括源自用户或另一来源的非语言声音(non-vocal sound)，并且可以包括鼓掌、手指弹跳、其他声音或其组合。可听动作112C可以是第三类型的可听动作，其包括由用户与对象交互所引起的非语言声音，并且可以包括翻页、书籍合上、门打开/关闭、对象掉落、敲击地板、其他声音或其组合。一个或多个可听动作112A-C可以被一个或多个传感器131A-C检测到。

传感器131A-C可以耦合到计算设备130A，并且可以使计算设备能够感测环境100的各方面。传感器131A-C可以包括一个或多个音频传感器(例如，麦克风)、光学传感器(例如，环境光传感器、相机)、大气传感器(例如，温度计、气压计、比重计)、运动传感器(例如，加速度计、陀螺仪等)、位置传感器(例如，全球定位系统传感器(GPS))、接近传感器、其他传感设备、或其组合。在图1中所示的示例中，传感器131A可以是音频传感器，传感器131B可以是光学传感器，并且传感器131C可以是温度传感器。传感器131A-C中的一个或多个可以在计算设备130A内部、在计算设备130A外部或其组合中，并且可以经由有线或无线连接(例如，蓝牙

WiFi)耦合到计算设备130A。

计算设备130A可以是能够接收和处理从传感器131A-C导出的数据的任何计算设备。计算设备130A可以用作语音命令设备并且提供对集成虚拟助理的访问。在一个示例中，计算设备130A可以包括智能扬声器、移动设备(例如，电话、平板电脑)、可穿戴设备(例如，智能手表)、数字媒体播放器(例如，智能电视、微型控制台、机顶盒)、个人计算机(例如，笔记本电脑、台式机、工作站)、家庭自动化设备、其他计算设备或其组合。在一些实施方式中，计算设备130A也可以被称为“用户设备”、“消费设备”或“客户端设备”。由传感器131A-C生成的数据可以由计算设备130A接收，并且可以由计算设备130A本地处理，或者可以从计算设备130A远程传送到另一计算设备(例如，130B)。

计算设备130A可以包括用于处理传感器数据的一个或多个组件。在图1所示的例子中，计算设备130A可以包括音频分析组件132、文本源分析组件133、比较组件134、非线性阅读识别组件135、物理效果确定组件136、预测加载组件137和效果提供组件138。在其他示例中，这些组件中的一个或多个或组件的一个或多个特征可以由另一计算设备(例如，计算设备130B)执行。这些组件将关于图2至图4更详细地讨论，并且可以用于检测当前阅读位置并指示一个或多个物理效果设备140A-C来增强收听体验。

物理效果设备140A-C可以是能够引起或提供物理效果的任何计算设备。可以经由用户110A和110B的感觉(例如，听觉、视线、触摸、气味和味道)来感知物理效果。物理效果设备140A-C中的每一个可以产生一个或多个物理效果，并且计算设备130A可以用作物理效果设备130A-C中的一个或者多个。物理效果设备140A-C可以提供物理效果145，或者可以指示另一设备提供物理效果145。在一个示例中，一个或多个物理效果设备140A-C可以是家庭自动化系统的一部分或与其集成，或者可以与家庭自动化系统分离。如图1中所示，物理效果设备130A可以包括扬声器或其他能够引起或发射声学效果的设备。物理效果设备130B可以包括一个或多个光源(例如，灯泡，像素)或其他能够变更环境100中存在的光量的设备(例如，电动窗帘或百叶窗)。物理效果设备130C可以包括一个或多个可以引起触觉效果的设备，并且可以包括振动源(例如，按摩椅)、产生风的风扇(例如，吊扇或空调)、加热或冷却源(例如，恒温器)、其他设备或其组合。

物理效果145可以是用户或计算设备可以感知的对环境100的任何修改，并且可以包括声学效果、触觉效果、光学效果、其他效果或其组合。声学效果可以是与声音相关的物理效果，并且可以经由声波传播。声音效果可以包括人类或动物的声音(例如，语音或噪音)、大气的声音(例如，雷声、下雨、风或其他天气的声音)、音乐的声音(例如，乐器、背景音乐、主题音乐)、对象的声音(例如，敲门、开门、关窗、玻璃破碎、对象撞击、汽车行驶)、其他声音效果或其组合。触觉效果可以是与用户的触摸感相关的物理效果。触觉效果可以包括微风、振动、温度变化、其他触摸感或其组合。光学效应可以是与光有关的物理效应，并且可以经由可见的电磁辐射传播。光学效果可包括环境照明、闪光灯、动画、光量的其他变化或其组合的增大或减小。光学效果可能来自灯(例如，吸顶灯、台灯)、闪光灯(例如，电话灯)、窗帘(例如，百叶窗或窗帘)、投影仪、电子显示器、全息显示器、激光器、其他光源、或其组合。其他效果可能包括与气味或味道有关的效果(例如，嗅觉效果)。

计算设备130B可以是耦合到计算设备130A的服务器，并且可以位于环境100本地或远离环境100。计算设备130B可以包括一个或多个计算设备(诸如机架式服务器、服务器计算机、个人计算机、大型计算机、膝上型计算机、平板计算机、台式计算机、路由器等)、数据存储(例如，硬盘、存储器、数据库)、网络、软件组件和/或硬件组件。在一个示例中，计算设备130B可以用于提供远程处理，并且可以用作话音处理服务，如关于图2更详细地讨论的。在另一示例中，计算设备130B可以向计算设备130A提供对媒体项的访问。

媒体项可以对应于物理效果、文本源、简档信息、话音模型、指令、其他数据或其组合。媒体项示例包括但不限于数字音效、数字音乐、数字动画、社交媒体信息、电子书(e-book)、电子杂志、数字报纸、数字有声读物、数字视频、数字照片、网站内容、电子期刊、web博客、真正的简单聚合(RSS)馈送、电子漫画书、软件应用等。在一些实施方式中，媒体项可以称为内容项，并且可以通过互联网和/或经由计算设备130A(例如，智能扬声器)来提供。如本文所使用的，“媒体”、“媒体项”、“数字媒体”、“数字媒体项”、“内容”和“内容项”可以包括可以使用配置成向环境100中的一个或多个用户呈现内容的软件、固件、或硬件来加载或执行的电子文件或记录。在一种实施方式中，计算设备130B可以使用一个或多个数据存储来存储媒体项，并通过网络150将媒体项提供给计算设备130A。

网络150可以包括私有网络(例如，局域网(LAN)、公共网络(例如，互联网)、广域网(WAN))、有线网络(例如，以太网)、无线网络(例如，Wi-Fi或蓝牙连接)、蜂窝网络(例如，长期演进(LTE)网络)、路由器、集线器、交换机、服务器计算机和/或其组合的一个或多个。

通常，在一种实施方式中描述为由计算设备130A、计算设备130B或物理效果设备140A-C执行的功能可以由其他实施方式中的一个或多个其他设备执行。另外，归因于特定组件的功能性可以通过一起操作的不同或多个组件来执行。还可以通过适当的应用程序编程接口将计算设备130A和130B作为提供给其他系统或设备的服务来访问。尽管在智能扬声器方面讨论了本公开的实施方式，但是这些实施方式还可以并入云服务或内容共享平台的一个或多个特征。

在本文讨论的系统收集关于客户端设备或用户的个人信息或者可以利用个人信息的情形下，可以给用户提供控制计算设备是否能够收集用户信息(例如，有关用户的音频输入、用户的偏好、用户的当前位置、社交网络、社交行为、活动或专业的信息)或者控制是否和/或如何从计算设备接收的与用户更相关的内容的机会。此外，某些数据在它被存储或使用之前可以被以一种或多种方式处理，使得个人可识别的信息被去除。例如，可以处理用户的身份，使得对于该用户不能确定个人可识别的信息，或者可以在获得位置信息的情况下使用户的地理位置一般化(诸如到城市、邮政编码或州级别)，使得不能确定用户的特定位置。因此，用户可以控制如何收集关于用户的信息以及如何由计算设备使用。

图2-4图示根据本公开的一个或多个方面的示例性计算设备130的框图，该示例性计算设备130可以检测文本源内的阅读位置并以物理效果补充环境以增强收听体验。计算设备130可以与计算设备130A、计算设备130B或其组合相同或相似。图2讨论了使计算设备130能够接收用户的音频数据并将其与文本源的数据进行比较的特征。图3讨论了使计算设备130能够基于音频数据和文本源数据来分析数据以检测阅读位置的特征。图4讨论了使计算设备130能够提供物理效果来修改一个或多个收听者的环境的特征。图2-图4中提供的组件和模块是示例性的，并且可以包括或多或少的组件或模块而不失一般性。例如，两个或更多个组件可以被组合为单个组件，或者一个组件的特征可以被划分为两个或更多个组件。在一种实施方式中，一个或多个组件可以驻留在不同的计算设备(例如，客户端设备和服务器设备)上。

参考图2，计算设备130可以包括音频分析组件132、文本源分析组件133、比较组件134和数据存储240。音频分析组件132可以在用户大声阅读文本源时接收和访问从环境提取的音频数据。在一个示例中，音频分析组件132可以包括音频数据接收模块212和声学建模模块214。

音频数据接收模块212可以接收包括用户的一个或多个可听动作的音频数据241。音频数据可以包括从用户环境捕获的口头字词、翻页或其他可听动作。音频数据241可以以音频信号的形式从一个或多个传感器直接接收，或者可以在传感器存储音频数据241之后从数据存储240或其他计算设备间接接收。音频数据241可以以任何数字或模拟格式，并且可以从一个或多个存储对象(例如，文件、数据库记录)、数据流(例如，音频流、视频流)、数据信号、其他数据传输或存储协议或者它们的组合中进行访问或接收。音频数据241可以是音频记录，并且可以在被声学建模模块214分析之前、期间或之后被分割成一个或多个持续时间(例如，部分、区块或其他单元)。

声学建模模块214可以使用声学模型来分析音频数据241以标识音素数据243A。声学模型可以表示可听动作和音素之间的已知关系。音素可以是声音的单位，并且可以对应于可听动作的声音模式(例如，口头字词)。音素可以是语言单元、非语言单元、其他单元或它们的组合。声学建模模块214可以将音频数据转化成音素，该音素作为音素数据243A被存储在数据存储装置240中。

音素数据243A可以包括表示从音频数据241提取的一个或多个音素的值。音素数据243A可以使用标准或专有记号来表示一系列音素。该记号法可以包括表示音素的一个或多个比特、字节、符号或字符的特定布置。在一个示例中，特定布置可以包括放置在一个或多个定界符旁边或其之间的符号。分隔符可以包括斜杠、方括号、竖线、括号、逗号、制表符、空格、换行符、其他分隔符或它们的组合。音素可以被排列成表示一个或多个可听动作的一部分的一系列音素。

文本源分析组件133可以接收和分析与文本源120有关的数据。可以鉴于用户输入来确定文本源120，该用户输入是基于文本、基于话音、基于触摸、基于手势或其他方式的用户输入。。例如，用户可以通过说出文本源120的名称(例如，书的标题或作者)、通过键入和搜索文本源、通过选择显示的文本源、其他选择机制或者其组合来标识文本源120。在图2所示的例子中，文本源分析组件133可以包括数据访问模块222和音素确定模块224。

数据访问模块222可以访问与文本源120相关联的数据，并且可以将访问的数据存储为文本源数据242。数据访问模块222可以从一个或多个源访问数据，该一个或多个源可以包括本地源、远程源、或其组合。本地源可以是计算设备130的存储，而远程源可以是可以通过网络连接访问的计算设备的存储。在一个示例中，远程源可以与计算设备130B相同或相似(例如，服务器或云服务)。本地或远程源可以存储在上面讨论的一个或媒体项的数据，并且计算源可以访问该数据。然后可以对数据进行分析、过滤、组合或修改，并且随后将其存储为文本源数据242。

文本源数据242可以是与文本源120相关联的任何数据，并且可以由作者、发行者、经销商，合作伙伴、远程服务器、第三方服务、其他源或其组合提供或从其访问。文本源数据242可以包括描述性数5据、文本数据、音素数据、其他数据或其组合。描述性数据可以指示标题、摘要、来源(例如，作者、发行者、经销商)、目录(例如，章节、节段、页面)、索引(例如，短语、页面指示符)、其他数据或其组合。

0文本数据可以包括文本源120的一个或多个字词。在一个示例中，

可以将这些字词组织为具有或不具有一个或多个图像124的字词序列122。文本数据可以是以与用户阅读它们相同或相似的方式排列字词(例如，一系列连续的字词)的数据结构。字词序列可以仅限于出现在文本源120中的字词，或者可以补充有指示非文本信息的存在或内5容的字词或数据(例如，插图、图像、表格、格式化、段落、页面)。

在另一示例中，字词也可以或可替代地以索引数据结构排列，该索引数据结构指示存在于文本源120中但未以用户讲出的方式连续排列的唯一字词。任何一种数据结构都可以补充有其他信息，这些信息可以包括文本源内的字词位置(例如，页面、行、幻灯片)、出现的次数、0字词的变体(例如，时态、复数)、其他数据、或它们的组合。在一个示例中，文本源120可以是物理书，并且文本源数据242可以包括来自对应的电子书(例如，e-book)、第三方服务、其他源或其组合的字词。

5文本源120的音素数据可以与音素数据243B相同或相似，并且可以是文本源120的音位编码，其格式与从音频导出的音素数据(例如，音素数据243A)相同或者相似。在上面讨论的示例中，文本源120的音素数据243B可以被包括作为文本源数据242的一部分，并由音素确定模块224访问。在另一个示例中，文本源数据242可能不存在音素0数据243B，并且可以由音素确定模块224生成。

音素确定模块224可以确定用于特定文本源120的音素数据。这可以涉及音素确定模块224从远程源访问现有音素数据243B，基于文本数据生成音素数据243B，或其组合。当生成音素数据243B时，音素确定模块224可以访问和分析文本源数据242的文本数据，并将文本数据转换(例如，导出、转化、变换、编码)为音素数据243B。然后可以将所生成的音素数据与文本源120相关联，以供计算设备130或一个或多个其他计算设备将来使用。在一个示例中，文本数据可以包括字词序列，并且所生成的音素数据可以包括语音编码，该语音编码包括表示字词序列的语音值序列。相同的语音值序列可以对应于听起来相同但拼写不同的两个字词(例如，同音字)。同样，即使拼写相同，不同的语音值序列也可能对应于听起来不同的字词(例如，同形异义字)。

如上所述，音素数据243A和243B可以均包括使用标准或专有记号表示的音素序列。该记号法可以被称为话音转录或音素转录，并且可以包括表示语言片段的音素值的特定布置。语言片段可以是可以在话音流中物理或听觉上标识的任何离散单元。音素值可以包括一个或多个符号、字符、字节、比特、其他值或其组合。在一个示例中，音素值可以由一个或多个Unicode字符、信息交换(ASCII)字符的美国标准代码、其他字符或它们的组合表示。音素值序列可以表示单个字词，并且每个单独的音素值可以表示该字词的一部分。例如，第一音素序列可以是

并且表示口头字词“thumb”，而第二音素序列可以是/>

并且表示口头字词“dumb”。在下面讨论的示例中，音素数据243A和243B可以包括值序列，并且每个值可以表示音素词汇的音素。

音素词汇可以包括一种或多种语言的可能音素值的集合。音素词汇可以是注音的字母系统，并且可以表示口头语言的一部分的话音质量：语音、音素、语调以及字词和音节的分隔。音素词汇可能会也可能不会表示话音的附加质量和话音提示的变体(例如，咬舌、错读、重音、方言)。音素词汇可以与音素字母、字符集、词汇、词典、其他变体或其组合相同或相似。在一个示例中，音素词汇可以基于国际音标(IPA)。IPA符号可以由与字母和变音符号有关的一个或多个元素组成。例如，英文字母<t>的声音可以在IPA中用单个字母[t]或用字母加变音符号

转录。分隔符(例如，斜杠)可以被用于用信号通知广泛或音位转录；因此，取决于上下文和语言，/t/可能不及/>

或[t]特定，并且可以指代/>

或[t]。在其他示例中，音素词汇可以与扩展话音评估方法音标字母(X-SAMPA)、Kirshenbaum(例如，ASCII-IPA，erkIPA)、其他音素词汇或其组合相同或相似。

比较组件134可以将用户110A的音频与文本源120的内容进行比较。下面讨论的示例使用音频和文本源对应的音素数据，并且在没有使用话音识别将音频转换为文本的情况下，将它们进行比较。其他示例也可以或可替代地使用文本数据、描述性数据、音频数据、其他数据或其组合。可以由计算设备130，由远程计算设备(例如，云服务)或其组合来执行比较。在一个示例中，比较组件134可以选择从音频导出的音素序列，并将其与从文本源导出的多个音素序列进行比较。在另一个示例中，比较组件134可以将文本源的音素序列与从音频导出的多个音素序列进行比较。在任一示例中，相似度测量数据的计算可以基于音素编辑距离。

音素编辑距离模块232可以通过确定将一个音素序列转换成另一音素序列的精确匹配所需的最小操作数来量化两个音素序列彼此之间的相似度。该操作可以包括在音素序列之一内的音素值(例如，符号)的任何修改。示例操作可以包括原始操作，诸如音素去除、插入、替换、换位、其他操作或其组合。在上面讨论的示例中，第一音素序列可以是

并且表示“thumb”，而第二音素序列可以是/>

并且表示“dumb”。尽管两个字词相差了两个字母，但是它们的音素编辑距离为数值1，因为将序列转换为精确匹配会涉及单个音素的替换(例如，用d替换θ)。在一个示例中，音素编辑距离可以是与Levenshtein(莱文施泰因)距离相同或相似的线性编辑距离。Levenshtein距离可以基于使两个音素序列相等所需的最小数量的去除、插入或替换操作。在其他示例中，音素编辑距离还可以或替代地包括换位或其他操作。在任一示例中，音素编辑距离可以是用于确定相似度测量数据244的数值。

相似度测量模块234可以访问音素编辑距离模块的数据，以确定音频和文本源之间的相似度或不相似度。相似度测量模块234可以分析音素编辑距离模块的数据以计算相似度测量数据244。相似度测量数据244可以表示两个或更多个音素序列之间的相似度(例如，字词或字词集的音标表示)，并且可以包括数字数据、非数字数据、其他数据或其组合。相似度测量数据244可以基于一个或多个音素序列的编辑距离。在一个示例中，相似度测量数据244可以包括音素编辑距离的数值。在另一个示例中，相似度测量数据244可以包括从音素编辑距离的数值导出的概率值。例如，相似度测量数据可以是基于一个或多个音素编辑距离和一个或多个其他值的百分比、比率或其他值。其他值可以是一个或多个音素序列或文本源的部分中的音素数量。

数据存储240可以是存储器(例如，随机存取存储器)、高速缓存、驱动器(例如，固态驱动器、硬盘驱动器、闪存驱动器)、数据库系统或能够存储数据的另一类型的组件或设备。数据存储240还可以包括可以跨越一个或多个计算设备(例如，多个服务器计算机)的多个存储组件(例如，多个驱动器或多个数据库)。

图3描绘了图示示例性组件的框图，该示例性组件使计算设备130能够分析以上讨论的数据以确定文本源内的阅读位置或阅读位置的不存在。如在上面所讨论的，音频的部分可能不完全匹配文本源，因为用户在大声阅读时可能会添加、跳过、重复或重新排序文本源的内容。结果，从音频导出的音素数据和从文本源导出的音素数据可能对于比较和对齐是具有挑战性的。在图1所示的例子中，计算设备130可以包括非线性阅读识别组件135，其使计算设备能够确定文本源内的与音频数据最佳对齐的位置。在一个示例中，非线性阅读识别组件135可以包括模糊匹配模块352、位置标识模块354、阅读速度模块356和阅读中断模块358。

模糊匹配模块352可以使计算设备130能够确定是否存在音频和文本源之间的匹配。该匹配可以与概率匹配、最佳匹配、最接近匹配、或者可以不是精确匹配但满足预定阈值的任何匹配相同或相似。在一个示例中，确定音频和文本源之间的匹配可以涉及检测音频分片包括文本源的一个或多个字词。即使音频或文本源包含其他字词，丢失字词或包含字词的变体(例如，发音错误、丢失复数形式)，也可能检测到匹配。该匹配可以被称为模糊匹配或近似匹配，并且可以使用模糊匹配逻辑来检测。模糊匹配逻辑可以用于比较音素值的序列，并且可以在音节级片段、字词级片段、短语级片段、句子级片段、其他片段或其组合下操作。在一个示例中，模糊匹配可以使用具有预定长度的音频片段来执行模糊匹配。预定长度可以是可定制的，并且可以是任何持续时间(例如，3+秒)或任何数量的字词令牌(例如，3-4个字词)。当考虑到非线性阅读时，具有比文本源的长度小得多的预定长度可以增强精度和性能。

模糊匹配模块352可以强加一个或多个约束来确定匹配。在一个示例中，检测到匹配可能涉及使用一个或多个全局未加权成本。全局未加权成本可能与将候选音素序列(例如，来自文本源的候选图案)转换为选定音素序列(例如，来自音频的图案)所需的原始操作总数有关。在另一个示例中，检测到匹配可以涉及单独地指定每种类型的操作数，而其他操作则设置总成本，但是允许将不同的权重指配给不同的原始操作。模糊匹配模块352还可以以将限制和权重的单独指配应用于序列中的个别音素值。

位置标识模块354可以访问模糊匹配模块352的数据，以标识文本源内与音频(例如，口头字词)的可听动作相对应的位置。在一个示例中，文本源可以是儿童书，并且该位置可以是该书的字词序列内的阅读位置。在其他示例中，该位置可以在话音、演示文稿、脚本、剧本、其他文本源或其组合中。在任一示例中，位置可以是文本源内的过去、当前或将来的阅读位置，并且可以存储为位置数据345。位置数据可以是标识一个或多个特定音素、字词、段落、页面、节段、章节、表、图像、幻灯片、其他位置或其组合的数字或非数字数据。

位置标识模块354可以确定可听动作与文本源的多个不同部分匹配。当在文本源中多次重复相同的字词或短语(例如，音素序列)时，可能会发生这种情况。位置标识模块354可以通过分析音素数据来检测口头字词，并且检测口头字词与文本源内的多个候选位置匹配。位置标识模块354可以基于模糊匹配模块352的数据来选择多个候选位置中的一个或多个。位置标识模块354可以通过基于口头字词发生之前、期间或者之后的音频的音素数据选择特定位置来进一步缩小候选位置(例如，扩展预定的片段长度或使用相邻的片段)。

阅读速度模块356可以访问和分析位置数据345以确定用户的阅读速度。可以鉴于位置数据、文本源数据、音频数据、其他数据或其组合来确定阅读速度数据，并且可以将其存储为阅读速度数据346。阅读速度可以基于位置数据345的一部分，其标识文本源中的至少两个位置。位置可以对应于特定时间，并且确定阅读速度可以基于两个或多个位置之间的字词量和时间量。在一个示例中，字词量可以基于文本源的内容，并且可以不考虑用户添加、跳过或重复的内容。在另一个示例中，字词量可以基于文本源的内容并且还基于音频的内容。这可能是有利的，因为音频的内容可以指示字词被添加、跳过、重复、其他动作或其组合。在任一示例中，阅读速度模块356可以更新阅读速度数据以表示用户在一个或多个持续时间内的阅读速度。

阅读中断模块358可以访问和分析以上讨论的任何数据，以检测用户是否已中断阅读文本源或仍在阅读文本源。这可能具有挑战性，因为用户可能已中止阅读文本源，但正在讨论与文本源有关的概念。结果，在口头字词和文本源的内容中可能存在重叠。检测阅读的中断可能很重要，因为它可以使计算设备避免记录私人讨论。阅读中断模块358可以通过计算一种或多种对应度量来确定用户是否已经中断阅读文本源。

对应度量可以指示音频片段和文本源的相应部分之间的相似度或不相似度。对应度量可以是指示音频片段对应于文本源的位置的概率的概率值。概率值可以是数字或非数字值，并且可以与百分比、比率、十进制或其他值或其组合相同或相似。在一个示例中，该值可以在0与1(例如，0.97)、0与100(例如，98)或其他范围的值之间。范围的一端可以指示音频的片段绝对对应于文本源的位置(例如，1.0或100)，而另一范围可以指示音频的片段绝对不对应于文本源的位置(例如，值为0)。

对应度量可以基于多个相似度测量或与多个相似度测量有关。例如，两种测量都可以用于比较或对比从音频导出的数据(例如，音素数据243A)与从文本源导出的数据(例如，音素数据243B)。相似度测量(例如，音素编辑距离)可用于将文本源的书面词与口头字词进行比较或对比，而对应度量可以被用于在持续时间内将书面词的集合与口头字词的集合进行比较或对比。音频(例如，片段)的持续时间可以是任何时间长度，并且可以包括字词的集合以及一个或多个其他可听动作(例如，翻页，合上书)。在一个示例中，用户的音频可以包括第一持续时间和第二持续时间，并且阅读中断模块358可以计算第一持续时间内的一个或多个对应度量和第二持续时间内的一个或多个对应度量。对应度量可以被存储为对应度量数据347。在其他示例中，对应度量还可以或可替代地考虑一个或多个信号，诸如在持续时间内不存在话音输入、对故事文本的识别或可能指示中止的特定字词或短语的识别不存在。这些字词或短语可能包括“let’s stop reading(让我们中止阅读)”、“let’sfinish tomorrow(让我们明天完成)”、“OK,I’m done(好，我已做完)”、“let’s pause(让我们暂停)”、其他短语或它们的组合。

阅读中断模块358可以将每个持续时间内的对应测量数据347与一个或多个预定阈值进行比较。响应于第一持续时间内的对应测量数据347不满足阈值(例如，高于或低于阈值)，阅读中断模块358可以确定音频的持续时间对应于文本源并且用户音频数据对应于用户阅读文本源。响应于在第二持续时间内的对应测量数据347满足阈值(例如，低于或高于阈值)，阅读中断可以确定音频的持续时间不对应于文本源并且用户已经中止阅读文本源。在一个示例中，确定对应度量满足阈值可以指示音频数据与文本源的数据不匹配或者音频数据与文本源的内容不同。

阅读中断模块358可以响应于确定用户已经中断阅读文本源而执行一个或多个动作。在一个示例中，阅读中断模块358可以传送停用与计算设备相关联的一个或多个麦克风的信号，以避免捕获或记录附加音频数据。在另一个示例中，阅读中断模块358可以传送停止分析音频数据(例如，将音频数据与文本源的数据进行比较)的信号。后一个示例可以记录音频，但不能访问或分析音频数据。在又一示例中，阅读中断模块可以使计算设备130在传送信号之前、期间或之后与用户交互。例如，计算设备可以通过提供提示(例如，音频、视觉或其组合)来与用户交互。该提示可以询问用户是否退出故事时间模式，或者可以通知用户故事时间模式已经退出，并且可以或者不可以使用户能够重新启用故事时间模式。

图4描绘图示示例性组件的框图，该示例性组件使计算设备130能够提供物理效果以增强用户的体验。如在上面所讨论的，物理效果可以修改环境，并且可以包括声学效果、触觉效果、光学效果、其他效果或其组合。在所示的示例中，计算设备130可以包括物理效果确定组件136、预测加载组件137和效果提供组件138。

物理效果确定组件136使计算设备130能够标识并提供与文本源的特定部分相对应的物理效果。在一个示例中，物理效果确定组件136可以包括可听动作相关模块462、场境数据模块464和效果选择模块466。

可听动作相关模块462可以使计算设备能够将特定物理效果与和文本源相关联的特定可听动作相关。可听动作相关模块462可以基于文本源的效果数据448来确定相关性。效果数据448可以指示哪些物理效果对应于文本源的哪些部分。效果数据448可以将特定物理效果与文本源中的特定位置、用户的特定可听动作、特定触发条件(下面讨论)或其组合相关。文本源中的位置可能与可听动作(例如，口头字词或翻页)有关，或者与可听动作(例如，用户查看图形图像)无关。在一个示例中，效果数据448可以标识包括文本源的特定口头字词(例如，狗)的可听动作，并且物理效果可以涉及发起与该口头字词相对应的声学效果(例如，吠声)。在另一个示例中，效果数据448可以标识可听动作(例如，翻页)，并且物理效果可以涉及修改现有的物理效果(例如，重新调整环境声音、光或温度)。

效果数据448可以由计算设备130访问或可以由计算设备130创建。在一个示例中，计算设备130可以直接或间接地从作者、发行者、经销商、合作伙伴、第三方服务、其它源或者其组合访问或者接收效果数据。效果数据448可以被包括在文本源数据242内或者可以与文本源数据242分离。在另一个示例中，计算设备130可以基于文本源数据242创建效果数据。例如，可听动作相关模块462可以分析文本数据或音素数据，并标识与文本源的特定部分相对应的物理效果。在任一示例中，效果数据448可以存储在数据存储器240中，以供计算设备130增强访问。

场境数据模块464可以使计算设备130能够收集与用户相关联的场境数据449。场境数据449可以基于用户的环境，并且可以使用一个或多个传感器(例如，传感器131A-C)获得。场境数据449也可以或可替代地基于关于用户的简档数据，其可以经由直接用户输入或经由远程源(例如，与内容平台或社交网络的网络连接)对于计算设备130可访问。在一个示例中，场境数据449可以包括声音数据(例如，环境声音测量)、光数据(例如，环境光测量)、时间数据(例如，早晨或晚上)、日历数据(提前预约明天)、地理位置数据(例如，邮政编码、地址、纬度/经度)、天气数据(例如，下雨、照明、雷雨、大风、多云)、用户简档资料(例如，孩子的名字、年龄或性别)、用户音频反馈(例如，儿童哭泣或拍手)、其他数据或其组合。

效果选择模块466可以使计算设备130能够基于效果数据448、场境数据449、文本源数据242、其他数据或其组合来选择和修改物理效果。效果选择模块466可以用于选择特定物理效果(例如，声学效果)或修改物理效果的属性。该属性可以与物理效果的强度、定时、音调、转变(例如，淡入/淡出)、其他特征或其组合有关。强度可以与对环境的修改的量级有关，并且可以与物理效果的音量(例如，响度)或辉度(例如，亮度)有关。定时可能与物理效果的速度或持续时间有关。计算设备130可以基于文本源的字词来选择物理效果，并且可以基于场境数据来更新物理效果的属性。在一个示例中，场境数据可以包括用户的环境的声音数据，并且物理效果可以是基于声音数据的一定量的声学效果。在另一示例中，场境数据可以包括用户的环境的光数据，并且物理效果可以是基于光数据修改光源的辉度的光学效果(例如，使光变暗或变亮)。在又一示例中，场境数据可以包括父母或孩子的用户简档数据，并且指示听众的年龄，并且其中物理效果包括基于用户的年龄选择的声学效果(例如，针对年幼的孩子的更有趣的狗吠声和针对年长的孩子的更严重的狗吠声)。

效果选择模块466可以使用场境数据来标识与文本源的阅读有关的定时方面。例如，时间数据或日历数据可用于在文本源在晚上阅读或者在早晨阅读之间区分。在晚上，效果选择模块466可以选择更加平静(例如，较少刺激)的物理效果，以鼓励听众准备上床睡觉。这可能涉及减小用于声音和光学效果的亮度和音量设置和/或选择具有较低音调的效果(例如，与叫喊相反，较柔和的碰撞效果或耳语)。在早晨，效果选择模块466可以选择更具刺激性的物理效果，以鼓励用户为这一天做好准备。这可能涉及增大声学和光学效果的亮度和音量设置。日历数据还可以指示阅读时间是否与周末或工作日相关联，或者是否就有约会到来(例如，当天晚些时候或第二天清晨)。这些中的任何一个都可能影响用户阅读文本源的速度以及应该多长时间或多久提供物理效果。

预测加载组件137可以使计算设备130能够在需要物理效果的内容之前以预测性地加载该内容。预测加载可以通过在物理效果被发起之前加载物理效果的内容来加速计算设备130提供物理效果的能力。预测加载可以与预取、预缓存、缓存预取、其他概念或其组合相同或相似。在一个示例中，预测加载组件137可以包括预测模块472、触发确定模块474和内容加载模块476。

预测模块472可以使计算设备130能够预测用户将到达文本源的特定部分的时间。例如，预测模块472可以确定在用户讲出字词之前该文本源的字词将会被讲出的时间。预测时间可以是将来的时间，并且可以基于用户的阅读速度、文本源的阅读位置、其他数据或其组合来确定。在一个示例中，可以基于用户的阅读速度(例如，每分钟字词、每分钟页面)和文本源中的当前阅读位置与目标位置之间的差异(例如，字词、段落或页面的数量)来计算时间。在其他示例中，预测模块472可以使用预测模型、机器学习、神经网络或其他技术来基于当前数据、历史数据或其组合来增强预测。

触发确定模块474可以使计算设备130能够确定与特定物理效果相关联的触发条件。触发条件可以是加载触发条件或发起触发条件。加载触发条件指示何时开始加载物理效果的内容。发起触发条件指示何时开始提供(例如，播放)物理效果的内容。任一触发条件可以对应于文本源内的特定时间或特定位置，并且可以基于效果数据、文本源数据、其他数据或其组合。特定时间可以是绝对时间(例如，在8:32:02pm)或相对时间(例如，在字词或翻页的预测时间之前的5秒)。特定位置可以是文本源内的物理效果要与其对齐的字词之前的位置。特定位置可以是绝对位置(例如，字词397)或相对位置(例如，在字词“犬吠”之前的5个字词)。

触发条件的确定可以基于与内容、计算设备、用户、环境的其他方面或其组合有关的一个或多个因素。与内容有关的因素可以包括内容的数量(例如，1MB文件大小)、内容的位置(例如，远程存储)、内容的格式(例如，可下载文件、流传输区块或需要转码的格式)、内容的持续时间(例如，2秒音效)、内容的其他方面或其组合。与计算设备有关的因素可以对应于计算设备130或其他计算设备的计算资源的数量和/或可用性。计算资源可以包括连接速度(例如，联网带宽)、存储空间(例如，可用的固态存储)、处理能力(例如，CPU速度或负载)、其他计算资源或其组合。与用户有关的因素可以包括用户的阅读速度、当前阅读位置、话音清晰度、其他方面或其组合。

触发确定模块474可以使用一个或多个因素来计算加载或提供物理效果的内容的持续时间。与加载内容有关的持续时间可以称为预测的加载时间，并且可以包括或可以不包括提供(例如，播放)内容的持续时间。在一个示例中，触发确定模块474可以基于内容的大小和计算设备130的网络带宽来确定加载物理效果的内容的持续时间。触发确定模块474可以使用预测的加载时间以标识触发条件的特定时间或位置。在一个示例中，触发条件可以被设置为大于或等于可听动作(例如，口头字词)的预测时间减去预定的加载时间(例如5秒)的时间。在另一个示例中，可以将触发条件设置为文本源内的等于或先于物理效果预期要对齐的位置的位置。这可能涉及基于预测的加载时间和阅读速度来选择文本源中的位置。例如，如果用户以每分钟120个字词的速度(即，每秒2个字词)阅读并且预测的加载时间为5秒，则触发位置可能是物理效果应与其对齐的字词之前的10个或更多个字词。

内容加载模块476可以使计算设备130能够在发起物理效果之前加载一种或多种物理效果的内容。加载内容可以涉及计算设备130传送或接收一个或多个请求和响应，并且可以涉及下载、流传输、复制、其他操作或其组合。内容可以包括可执行数据(例如，指令)、信息数据(例如，音频文件或区块)、其他数据或它们的组合。内容可以由计算设备130作为内容数据451存储在数据存储240中。计算设备130可以从本地设备(例如，数据存储240)、远程设备(例如，服务器或云服务)或其组合加载物理效果的内容。

效果提供组件138可以使计算设备130能够提供物理效果以修改用户的环境。可以在加载用于物理效果的内容之后发起效果提供组件138，并且可以对其进行定时，使得在与旨在与其对齐的可听动作对齐的时间提供物理效果。在一个示例中，效果提供组件138可以包括指令访问模块482和物理效果发起模块484。

指令访问模块482可以访问与物理效果相关联的指令数据。指令数据可包括一个或多个命令、操作、过程、任务、其他指令或其组合的集合。指令可指示物理效果以及物理效果的一个或多个属性。

物理效果发起模块484可以访问指令数据并执行指令数据以发起物理效果。物理效果发起模块484可以在检测到与物理效果相对应的发起触发条件(例如，可听动作)之前、期间或之后发起指令。在一个示例中，文本源可以包括特定字词，并且发起物理效果可以响应于检测到音频数据包括字词(例如，匹配音素)。在另一个示例中，物理效果发起模块484可以确定发起物理效果的发起触发条件。确定发起物理效果的触发条件的过程可以与用于发起加载物理效果的内容的触发条件相同或相似。该指令可以使计算设备130提供物理效果，或者可以使计算设备130与一个或多个物理效果设备通信以提供物理效果。在任一示例中，计算设备130可以直接或间接地使物理效果修改用户的环境以增强收听用户的体验。

在一个示例中，物理效果发起模块484或效果选择模块466可以使用一个或多个置信阈值来选择和/或发起物理效果。可以将一个或多个置信阈值分组为一个或多个置信区间，该一个或多个置信区间将音频与文本源的特定位置匹配(例如，口头字词与文本源的字词匹配)的概率进行归类。可以存在任意数量的置信区间，并且第一置信区间可以指示存在音频与文本源位置匹配的概率低(例如，>50％)，并且每个连续的置信区间可以更高(例如，>75％、>95％等)。将物理效果与位置相关的效果数据还可以包括特定置信阈值(例如，最小置信区间)。例如，提供声音效果可以与更高的置信区间相关联，然后转变背景效果。计算设备130可以在选择或发起物理效果之前确定是否满足置信阈值。这可以涉及比较对应度量数据、相似度度量数据、与模糊匹配相关联的其他数据或其组合。在一个示例中，文本源中的特定位置可以与多个不同物理效果相关联，并且每个可以对应于与当前阅读位置相关联的不同置信区间。当置信区间较高时(例如，信任当前阅读位置是准确的)，可以发起特定声音效果(例如，单只狗以较高的音量吠叫的声音效果)，而当置信区间较低时(例如，不确定当前阅读位置是否准确)，则可能发起不同声音效果(例如，多只狗以较低的音量吠叫的背景噪音)。

图5-8描绘了根据本公开的一个或者多个方面的相应方法500、600、700和800的流程图，所述方法500、600、700和800用于增强计算设备在大声阅读文本源时跟随并实时提供特殊效果的能力。方法500可以涉及使用音素数据和模糊匹配估计阅读进度。方法600可以优化计算设备检测用户何时中止从文本源阅读并且正在进行私人讨论的能力。方法700可以使计算设备能够提供考虑到用户的上下文和用户的环境的物理效果。方法800可以使计算设备能够预缓存物理效果的内容，以减少延迟并且更好地将物理效果与和文本源相关联的可听动作同步。

图5-图8的方法及其单独的功能、例程、子例程或操作中的每一个可以由执行该方法的计算机设备的一个或多个处理器来执行。在某些实现方式中，方法中的一个或者多个可以由单个计算设备来执行。可替选地，方法中的一个或者多个可以由两个或更多个计算设备来执行，每个计算设备执行方法的一个或更多个单独的功能、例程、子例程或操作。为了简化说明，将本公开的方法描绘和描述为一系列行为。然而，根据本公开的行为可以以各种顺序和/或同时发生，以及与本文未呈现和描述的其他行为一起发生。此外，可能并不需要所有图示的行为来实现根据所公开的主题的方法。另外，本领域的技术人员将理解和领会，可以经由状态图或事件将方法可替代地表示为一系列相关的状态。另外，应领会到，在本说明书中公开的方法能够存储在制品上，以促进将此类方法输送并转移到计算设备。如本文中所使用的术语“制品”旨在包含可从任何计算机可读设备或存储介质访问的计算机程序。在一个实施方式中，方法可以由图1-图4中的组件中的一个或者多个来执行。

参考图5，方法500可以由客户端设备(例如，智能扬声器)、服务器设备(例如，云服务)、其他设备或它们的组合的处理设备执行，并且可以在框502处开始。在框502处，处理设备可以确定文本源的音素数据。文本源可以包括字词序列，并且音素数据可以是字词序列的语音编码，该语音编码包括一个或多个语音值序列。每个语音值可以对应于音素，并且音素序列可以对应于口头字词。相同的语音值序列可以对应于听起来相同但拼写不同的字词(例如，同音字)，而不同的语音值序列可以对应于拼写相同但听起来不同的字词(例如，同音异义词)。

处理设备可以从文本源的源访问音素数据，或者可以生成用于文本源的音素数据。处理设备可以通过对字词序列进行语音编码来生成音素数据。这可能涉及访问文本源的文本数据并基于文本数据生成(例如，转换、变换、导出)音素数据。然后，该音素数据可以与供将来使用的音素数据相关联。

在框504处，处理设备可以接收包括与文本源相关联的口头字词的音频数据。音频数据可以包括用户的一个或多个可听动作，并且可以包括从用户的环境捕获的口头字词、翻页或其他可听动作。在一个示例中，处理设备可以直接从一个或多个传感器以音频信号的形式接收音频数据。在另一个示例中，处理设备可以从数据存储或另一计算设备接收音频数据。音频数据可以是任何数字或模拟格式，并且可以经由一个或多个存储对象(例如，文件、数据库记录)、数据流(例如，音频流、视频流)、数据信号、其他数据传输或存储协议、或其组合来访问或接收。

在框506处，处理设备可以将文本源的音素数据与音频数据的音素数据进行比较。音频数据和文本源的比较可以在不使用话音识别将音频数据转换为文本(例如，已识别的字词)的情况下出现，并且可以涉及将与音频数据相对应的音素数据与与文本源相对应的音素数据进行比较。比较可以包括计算表示两个或更多个语音值序列之间的相似度的数值。数值可以是音频数据的音素数据和文本源的音素数据之间的音素编辑距离。比较还可以涉及在与音频数据相对应的音素数据与文本源的音素数据之间执行模糊匹配。

在框508处，处理设备可以基于文本源的音素数据和音频的语音数据的比较来标识字词序列中的位置。位置的标识可以涉及确定口头词与文本源的字词序列中的字词匹配。在一个示例中，文本源可以是书，并且该位置可以是该书中的当前阅读位置。响应于完成上文参考框508描述的操作，该方法可以终止(terminate)。

参考图6，方法600可以由以上讨论的相同处理设备或不同处理设备执行，并且可以在框602处开始。在框602处，处理设备可以接收包括与文本源相关联的口头字词的音频数据。音频数据可以被分段(例如，标记化、分片、分割、划分)成第一持续时间和第二持续时间。在一个示例中，文本源可以是书，并且音频数据的第一部分可以对应于书的内容(例如，包括书的口头字词)，而音频数据的第二部分可以不对应于书的内容(例如，可能没有来自于书的口头字词)。

在框604处，处理设备可以将音频数据与文本源的数据进行比较。文本源的数据可以包括音素数据，并且比较音频数据和文本源的数据可以涉及音素比较。在一个示例中，比较音素数据可以涉及计算文本源的音素数据和音频数据的音素数据之间的音素编辑距离。

在框606处，处理设备可以计算音频数据的第二持续时间与文本源的数据之间的对应度量。计算对应度量可以包括基于多个音素编辑距离来计算对应度量。在一个示例中，处理设备可以选择口头字词(例如，3、4、5+个字词)的集合，并将口头字词的集合与文本源的内容进行比较。可以为集合中的每个字词或一个或多个字词的组合确定音素编辑距离。然后可以对所得的数值进行加权、聚合或修改，以确定对应度量。

在框608处，响应于确定对应度量满足阈值，处理设备可以传送停止将音频数据与文本源的数据进行比较的信号。确定对应度量满足阈值可以涉及确定对应度量低于阈值或高于阈值。该确定还可以基于对应度量满足或不满足阈值的持续时间。确定对应度量满足阈值可以指示音频数据的第二持续时间包括与文本源的内容不同的内容，并且可以指示或不指示音频数据与文本源的数据不匹配。传送信号可以涉及传送停用一个或多个捕获音频数据的麦克风的信号。在一个示例中，响应于确定音频数据的第二持续时间不存在文本源的内容，处理设备可以使计算设备提示用户退出故事时间模式。该提示可以是音频提示、视觉提示、其他提示或它们的组合。响应于完成以上参考框608所描述的操作，该方法可以终止。

参考图7，方法700可以由以上讨论的相同处理设备或不同处理设备执行，并且可以在框702处开始。在框702处，该处理设备可以接收包括用户的口头字词的音频数据。口头字词可以与用户正在大声阅读的文本源相关联，并且可以包括一个或多个其他可听动作，诸如翻页、不在文本源内的口头字词和从用户的环境捕获的其他可听动作。在一个示例中，处理设备可以直接以音频信号的形式(例如，以供实时使用或实时感知)从一个或多个传感器接收音频数据。在另一个示例中，处理设备可以从数据存储或另一计算设备接收音频数据。音频数据可以是任何数字或模拟格式，并且可以从一个或多个存储对象(例如，文件、数据库记录)、数据流(例如，音频流、视频流)、数据信号、其他数据传输或存储协议、或其组合中访问或接收。

在框704处，处理设备可以分析与用户相关联的场境数据。场境数据可以包括声音数据、光数据、时间数据、天气数据、日历数据、用户简档数据、其他数据或其组合。在一些示例中，场境数据可以与物理效果相关联，使得处理设备可以提供考虑用户的上下文和用户环境的物理效果。在一个示例中，场境数据可以包括用户环境的声音数据，并且物理效果可以包括基于声音数据以一定音量的声学效果。在另一示例中，场境数据可以包括用户环境的光数据，并且物理效果可以包括基于光数据修改光源的辉度的光学效果。在又一个示例中，场境数据可以包括指示儿童的年龄的用户简档数据，并且物理效果可以包括基于儿童的年龄选择的声学效果。

在框706处，处理设备可以确定音频数据和文本源的数据之间的匹配。处理设备可以基于用户输入(例如，音频数据或触摸数据)来标识文本源，并检索文本源的数据。文本源的数据可以包括音素数据，并且确定匹配可以涉及计算文本源的音素数据和音频数据的音素数据之间的音素编辑距离。在一个示例中，确定音频数据和文本源的数据之间的匹配可以涉及使用文本源的音素数据来检测包括文本源的字词的音频数据。

在框708处，处理设备可以响应于确定匹配而发起物理效果。物理效果可能对应于文本源，并且基于场境数据。物理效果可以修改用户的环境，并且可以包括声学效果、光学效果和触觉效果中的至少一种。文本源可以包括字词，并且发起物理效果可以响应于检测到音频数据包括字词。在一个示例中，处理设备可以基于文本源的字词来选择物理效果，并且可以基于场境数据来更新物理效果的属性(例如，音量或亮度)。响应于完成以上参考框708所描述的操作，该方法可以终止。

参考图8，方法800可以由服务器设备或客户端设备的处理设备执行，并且可以在框802处开始。在框802处，处理设备可以标识文本源的效果数据，其中效果数据将物理效果与用户的可听动作相关。效果数据可以指示物理效果，并指示文本源中与可听动作有关的位置。该位置可以对应于文字源的字词、段落、页面或其他位置。在一个示例中，可听动作可以是文本源的口头字词，而物理效果可以是与口头字词相对应的声学效果。在另一个示例中，可听动作可以包括翻页，并且物理效果可以是对现有声学效果、光学效果或触觉效果的修改。

在框804处，处理设备可以接收包括多个可听动作的音频数据。多个可听动作可以包括文本源的一个或多个口头字词和一个或多个其他可听动作，诸如翻页、不在文本源内的口头字词以及从用户的环境中捕获的其他可听动作。在一个示例中，处理设备可以以音频信号的形式(例如，以供实时使用或接近/感知的实时)直接从一个或多个传感器接收音频数据。在另一个示例中，处理设备可以从数据存储或另一计算设备接收音频数据。音频数据可以是任何数字或模拟格式，并且可以从一个或多个存储对象(例如，文件、数据库记录)、数据流(例如，音频流、视频流)、数据信号、其他数据传输或存储协议，或其组合中访问或接收。

在框806处，处理设备可以基于效果数据和文本源来确定触发条件。在一个示例中，确定触发条件可以涉及确定与文本源中的第一位置相关联的物理效果以及选择文本源中的在第一位置之前的第二位置。该选择可以基于与物理效果相关联的阅读速度和加载时间，并且第二位置可以与文本源的字词、段落、页面或章节的特定实例中的至少一个相关联。然后，处理设备可以将触发条件设置为与文本源中的第二位置相对应。在另一个示例中，确定触发条件可以涉及基于物理效果的内容量和可用计算资源量来计算加载内容的持续时间。计算资源可以与联网带宽、存储空间或处理能力中的一个或多个有关，并且当可用计算资源较低时，持续时间可以更长。在一个示例中，确定将来将发生可听动作的时间可以涉及基于计算出的持续时间和所确定的可听动作的时间来标识发起加载的时间，以及在所标识的时间处或在其之前发起加载内容。在另一个示例中，确定时间包括基于文本源中的阅读速度和当前阅读位置来计算将来的时间。在又一个示例中，确定时间包括预测在讲出字词之前将讲出文本源的字词的时间。

在框808处，处理装置可以响应于满足触发条件而加载用于物理效果的内容。触发条件可以在可听动作发生之前被满足。

在框810处，处理设备可以提供物理效果以修改用户的环境。响应于完成上文参考框810描述的操作，该方法可以终止。

本文讨论的技术包括对具有或不具有虚拟助理特征的计算设备的多种增强功能。以下讨论包括可以单独或一起使用的多个不同的增强功能，以优化计算设备在文本源被大声阅读时跟随的能力，并提供特殊效果以补充用户的环境。在一个示例中，环境可以包括父母向一个或多个孩子大声阅读书。在另一示例中，环境可以包括一个或多个用户向听众提供演示文稿、话音或其他表演。在任一示例中，可以基于与文本源相关联的数据的分析，使用该技术以通过特殊效果增强环境。特殊效果可以与文本源的特定部分(诸如特定的口头字词或翻页)同步。

在第一示例中，增强可以与基于话音模糊匹配和置信区间的阅读进度估计有关，并且可以与基于计算机的人类话音识别领域有关，并且尤其涉及增强当用户大声阅读文本源时该计算机设备标识文本源中的阅读位置的能力。当用户大声阅读文本源时，当计算设备尝试使用传统的虚拟助理功能以跟随时，会出现许多技术问题。因为传统的虚拟助理功能执行话音识别以将音频转化为文本/已识别的字词，所以出现了一些问题。话音识别通常涉及将音频转化为音素的声学步骤和将音素转化为文本/已识别的字词的语言步骤。在将口头字词转化为文本之前，语言步骤通常会等待后续的口头字词以建立上下文。语言步骤会引入不必要的时间延迟，并消耗额外计算资源。另外，与执行话音比较(例如，音素比较)相比，使用识别的文本来执行与文本源的基于传统文本的比较可能更容易出错。之所以经常出现这种情况，是因为听起来相同或听起来相似的许多字词的拼写可能非常不同，并且在文本比较时会产出假否定。另外，传统的文本比较可能无法正确解决用户在阅读文本源时可能跳来跳去的情形。例如，文本源的部分可能会被跳过、重复或添加新内容。这可能使标识文本源内的当前阅读位置并正确检测阅读速度是挑战性的。本技术的各方面和实施方式通过提供增强功能以使计算设备能够在大声阅读文本源时检测文本源中的当前阅读位置，从而解决了上述和其他缺陷。在一个示例中，该技术可以通过比较从音频导出的音素数据与从文本源导出的音素数据来避免传统话音识别的语言步骤。文本源可以是书、杂志、演示文稿、话音、脚本或包含字词序列的其他来源。该技术可以接收包括由用户讲出的字词的音频数据，并且可以在本地或通过助理或远程服务器(例如，云服务)将音频数据转换为音素数据。然后可以经由语音比较而不是更传统的文本比较来比较音频的音素数据和文本源。语音比较可以伴随模糊匹配，以标识字词序列内的位置(例如，当前阅读位置)。本文描述的系统和方法包括增强基于计算机的人类话音识别的技术领域的技术。特别地，所公开的技术增强标识当前阅读位置所需的时延、精度和计算资源。这可能是修改话音分析过程(例如，话音识别)以避免将音频数据转化为文本/字词的结果。该技术可以使用话音分析过程，其使用声学模型将音频转化为音素数据，但可以避免使用语言模型将话音素数据转化为文本/字词的语言步骤。避免语言步骤减少时延和计算资源的消耗。执行音素比较并使用模糊匹配可以增强标识当前阅读位置的精度，因为它可以更好地补偿文本源的非线性阅读(例如，跳过、重复或添加内容)。

在第二示例中，增强功能可能与故事读者中止阅读的算法确定有关，并且可能与基于计算机的人类话音识别领域有关，并且特别地与增强计算机设备确定用户不再大声阅读文本源的内容的能力有关。在当用户大声阅读文本源时计算设备尝试使用传统的虚拟助理功能以跟随时，会出现许多技术问题。之所以会出现一些问题，是因为如果用户继续谈论其他事情，传统的虚拟助理可能无法检测到用户何时已经完成了音频输入。这可能导致计算设备继续记录用户的音频，如果用户转变到讨论私人的事情，则可能是有问题的。当用户不跟随文本并在大声阅读文本源的同时跳过、重复或添加新内容时，检测用户何时中止从文本源中阅读可能更具有挑战性的。本技术的各方面和实施方式通过增强计算设备检测用户何时中断阅读文本源的能力来解决上述和其他缺陷。在一个示例中，该技术可以使虚拟助理能够更准确地检测到用户已经离开阅读文本源去休息一下，并且可以停用麦克风以避免捕获私人音频内容。这可能涉及接收包括与文本源相关联的口头字词的音频数据，并将音频数据与文本源的数据进行比较。该技术可以计算音频数据的内容和文本源的内容之间的对应度量。对应度量可以是基于音素数据、文本数据或其他数据的比较的概率值，并且可以涉及使用模糊匹配逻辑。当对应度量满足阈值(例如，低于最小对应阈值)时，该技术可以使将停止对后续音频数据的分析的信号被传送。本文描述的系统和方法包括增强基于计算机的人类话音识别的技术领域的技术。特别地，该技术可以通过使用比较来避免对用户私人对话的无意记录来解决技术问题，该比较可以更好地补偿文本源的非线性阅读(例如，跳过、重复、添加内容)。例如，以上技术可以促进对虚拟助理的更准确和/或更迅速的自动控制，以仅记录和/或处理相关音频。该技术还可以通过在计算设备检测到用户已中止阅读文本时停用音频传感器(例如，麦克风)和相关联的数据处理来使计算设备减少功耗。此外，以上技术可以使计算设备能够减少对计算资源的利用，诸如处理容量、网络带宽、数据存储等等，否则一旦用户已中止阅读文字就可以用于记录和/或处理音频数据。

在第三示例中，增强功能可能与基于场境数据的故事时间特殊效果的动态调整有关，并且可能与虚拟助理的领域有关，尤其是增强在大声阅读文本源的同时虚拟助理提供特殊效果的能力。现代计算设备可以配置成采用传统的虚拟助理特性，以提供声音效果，从而在用户大声阅读书时补充环境。例如，当用户大声阅读字词“bark”时，计算设备可以提供吠声效果。声音效果通常由提供文本源的同一实体提供，并且可以直接与文本源的一部分相对应。结果，特殊效果可能独立于用户或环境而相同，并且可能未针对用户的特定阅读环境进行优化。本技术的各方面和实施方式通过使计算设备能够提供基于用户环境的各种各样的特殊效果来解决上述和其他缺陷。在一个示例中，该技术可以使计算设备能够分析用户环境的场境数据并选择或定制特殊效果。特殊效果可以是变更用户环境的物理效果，包括声学效果(例如，音乐、声音效果音乐)、光学效果(例如，闪光灯，环境光)、触觉效果(例如，振动、风、温度变化)、其他效果或其组合。该技术可以涉及接收和分析与用户相关联的场境数据。场境数据可以与天气、照明、一天中的时间、用户反馈、用户简档、其他信息或其组合有关。该技术可以基于场境数据选择或修改与文本源相对应的物理效果。例如，这可能导致选择或修改音量、亮度、速度、音调或物理效果的其他属性。本文描述的系统和方法包括增强虚拟助理和家庭自动化的技术领域的技术。特别地，该技术可以使计算设备能够通过使用关于用户的场境数据以及添加、去除或修改物理效果以增强用户的收听体验的环境来优化环境。

在第四示例中，增强功能可能与对故事阅读器进度的检测有关，以预缓存特殊效果，并且可能与虚拟助理的领域有关，尤其是与增强虚拟助理为正在大声阅读的文本源预缓存特殊效果的能力有关。在尝试使用传统的虚拟助理功能以提供与文本源的话音内容同步的声音效果时，会出现许多技术问题。因为传统的虚拟助理执行话音识别以将音频转变为文本并且然后基于文本进行比较，所以出现了一些问题。话音识别通常涉及将音频转变为音素的声学步骤和将音素转变为文本的语言步骤。在将口头字词翻译成文本之前，语言步骤通常会等待后续的口头字词以建立上下文。语言步骤引入时间延迟，并消耗可能受到资源受限的计算设备上的其他计算资源。因为声音效果可能是从远程数据源下载的大型音频文件，所以延迟可能会进一步加重。传统方法可能涉及响应于检测到口头字词而下载声音效果，但是延迟可能导致在讲出字词很长时间之后提供特殊效果。另一种方法可能涉及在最初标识文本源时下载所有声音效果，但是当计算设备是资源受限的设备(例如，智能扬声器)时可能是有问题的。本技术的各方面和实施方式通过向计算设备提供增强功能以增强其节省计算资源的能力并且仍然提供与被大声阅读的文本源同步的特殊效果来解决上述和其他缺陷。这可以通过使用文本源(例如，书)的数据来预测未来的可听动作并在相应的可听动作出现之前预取相关联的物理效果来实现。在一个示例中，该技术可以使计算设备能够预测用户在讲出字词之前何时到达文本源中的字词。这可能涉及标识文本源的效果数据，该文本数据将物理效果与用户的一个或多个可听动作相关。可听动作可以包括由用户讲出的字词，或者可以是翻页，合上书或生成可听响应的其他动作。该技术可以基于当前阅读位置、阅读速度、其他数据或其组合来确定触发条件。响应于检测到满足触发条件，该技术可以使计算设备加载用于物理效果的内容，并随后提供物理效果以修改用户的环境。本文描述的系统和方法包括基于人类话音的识别来增强预缓存的技术领域的技术。特别地，当分析话音和下载特殊效果时，所公开的技术可以解决与资源消耗相关的技术问题。该技术还可以减少提供特殊效果的延迟，从而使特殊效果更好地与人类话音同步。

图9是图示根据本公开的一个或者多个方面操作的计算机系统的框图。在各种说明性示例中，计算系统900可以对应于图2-图4的计算设备130。计算系统可以被包括在支持虚拟化的数据中心内。在某些实施方式中，计算机系统900可以(例如，经由诸如局域网(LAN)、内联网、外联网或互联网这样的网络)连接到其它计算机系统。计算机系统900可以在客户端-服务器环境中以服务器或客户端计算机身份操作，或者在对等或分布式网络环境中作为对等计算机来操作。计算机系统900可以通过个人计算机(PC)、平板PC、机顶盒(STB)、个人数字助理(PDA)、蜂窝电话、web设备、服务器、网络路由器、交换机或桥接器或能够执行指定要由该设备采取的操作的一组指令(顺序的或其他)的任何设备来提供。另外，术语“计算机”应包括单独地或共同地执行一组(或多组)指令以执行本文描述的方法中的任何一种或多种的计算机的任何合集。

在另一个方面中，计算机系统900可以包括可以经由总线908相互通信的处理设备902、易失性存储器904(例如，随机存取存储器(RAM))、非易失性存储器906(例如，只读存储器(ROM))或电可擦除可编程ROM(EEPROM)和数据存储设备916。

处理设备902可以通过一个或多个处理器来提供，所述一个或多个处理器诸如通用处理器(诸如例如复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器)、甚长指令字(VLIW)微处理器、实现其它类型的指令集的微处理器或实现各类型的指令集的组合的微处理器)或专用处理器(诸如例如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或网络处理器)。

计算机系统900可以进一步包括网络接口设备922。计算机系统900还可以包括视频显示单元910(例如，LCD)、字母数字输入设备912(例如，键盘)、光标控制设备914(例如，鼠标)和信号生成设备920。

数据存储设备916可以包括非暂时性计算机可读存储介质924，在其上可以存储对本文描述的方法或功能中的任何一个或多个进行编码的指令926，包括用于实现方法500、600、700或者800和图1-图4中的任何组件或者模块的指令。

指令926还可以在其由计算机系统900执行期间完全地或部分地驻留在易失性存储器904内和/或处理设备902内，因此，易失性存储器904和处理设备902还可以构成机器可读存储介质。

虽然计算机可读存储介质924在说明性示例中被示出为单个介质，但是术语“计算机可读存储介质”应包括单个介质或存储一组或多组可执行指令的多个介质(例如，集中式或分布式数据库和/或相关高速缓存和服务器)。术语“计算机可读存储介质”还应包括能够对由计算机执行的一组指令进行存储或者编码的有形介质，并且使计算机执行本文描述的方法中的任何一种或多种。术语“计算机可读存储介质”应包括但不限于固态存储器、光学介质和磁介质。

本文描述的方法、组件和特征可以由分立硬件组件实现或者可以被集成在诸如ASIC、FPGA、DSP或类似器件的其它硬件组件的功能中。此外，可以通过硬件资源内的固件模块或功能电路来实现方法、组件和特征。另外，方法、组件和特征可以用硬件资源和计算机程序组件的任何组合或者计算机程序来实现。

除非另外具体地陈述，否则诸如“发起”、“发送”、“接收”、“分析”、等这样的术语指代由计算机系统执行或者实现的操作和过程，这些操作和过程将被表示为计算机系统寄存器和存储器内的物理(电子)量的数据操纵并变换成被类似地表示为计算机系统存储器或寄存器或其它这样的信息存储、传输或显示设备内的物理量的其它数据。另外，如本文所使用的术语“第一”、“第二”、“第三”、“第四”等是指用于区分不同元素的标签并且可能不具有根据其数字名称的序数含义。

本文描述的示例还涉及用于执行本文描述的方法的装置。此装置可以被特别构造用于执行本文描述的方法，或者它可以包括通过存储在计算机系统中的计算机程序选择性地编程的通用计算机系统。这样的计算机程序可以被存储在计算机可读有形存储介质中。

本文描述的方法和说明性示例不与任何特定计算机或其它装置固有地相关。可以根据本文描述的教导来使用各种通用系统，或者可以证明构造更专用的装置来执行方法500、600、700、800和/或其单独的功能、例程、子例程或操作中的每一个是方便的。在以上描述中阐述了各种这些系统的结构的示例。

以上描述旨在为说明性的，而不是限制性的。尽管已经参考具体说明性示例和实施方式描述了本公开，但是应认识到，本公开不限于所描述的示例和实施方式。应该参考所附权利要求以及权利要求所享有的等同物的完全范围来确定本公开的范围。

Claims

1.一种方法，包括：

由处理设备接收包括用户的口头字词的音频数据；

分析与所述用户相关联的场境数据；

确定所述音频数据和文本源的数据之间的匹配；以及

响应于所述匹配的所述确定而发起物理效果，其中所述物理效果对应于所述文本源并且是基于所述场境数据。

2.根据权利要求1所述的方法，其中对应于所述文本源的所述物理效果修改所述用户的环境并且包括声学效果、光学效果以及触觉效果中的至少一个。

3.根据权利要求1所述的方法，其中所述场境数据包括声音数据、光数据、时间数据、天气数据、日历数据以及用户简档数据中的至少一个。

4.根据权利要求1所述的方法，其中所述场境数据包括所述用户的环境的声音数据，并且其中所述物理效果包括按照基于所述声音数据的音量的声学效果。

5.根据权利要求1所述的方法，其中所述场境数据包括所述用户的环境的光数据，并且其中所述物理效果包括基于所述光数据来修改光源的亮度的光学效果。

6.根据权利要求1所述的方法，其中所述文本源包括字词，并且其中发起所述物理效果是响应于检测到所述音频数据包括所述字词。

7.根据权利要求6所述的方法，进一步包括：

基于所述文本源的所述字词来选择所述物理效果；和

基于所述场境数据来更新所述物理效果的属性。

8.根据权利要求1所述的方法，其中确定所述音频数据和文本源的数据之间的所述匹配包括：使用所述文本源的音位数据来检测所述音频数据包括所述文本源的字词。

9.根据权利要求1所述的方法，其中所述文本源的所述数据包括音位数据，并且其中确定所述匹配包括计算所述文本源的音位数据和所述音频数据的音位数据之间的音位编辑距离。

10.根据权利要求1-9中任一项所述的方法，其中所述场境数据包括指示孩子年龄的用户简档数据，并且其中所述物理效果包括基于所述孩子年龄来选择的声学效果。

11.一种包括处理设备的系统，所述处理设备被配置成：

接收包括用户的口头字词的音频数据；

分析与所述用户相关联的场境数据；

确定所述音频数据和文本源的数据之间的匹配；以及

响应于确定所述匹配而发起物理效果，其中所述物理效果对应于所述文本源并且是基于所述场境数据。

12.根据权利要求10所述的系统，其中对应于所述文本源的所述物理效果修改所述用户的环境并且包括声学效果、光学效果以及触觉效果中的至少一个。

13.根据权利要求11所述的系统，其中所述场境数据包括声音数据、光数据、时间数据、天气数据、日历数据以及用户简档数据中的至少一个。

14.根据权利要求11所述的系统，其中：

所述场境数据包括所述用户的环境的声音数据，并且所述物理效果包括按照基于所述声音数据的音量的声学效果；和/或

所述场境数据包括所述用户的环境的光数据，并且所述物理效果包括基于所述光数据来修改光源的亮度的光学效果。

15.根据权利要求11所述的系统，其中所述文本源包括字词，并且其中发起所述物理效果是响应于检测到所述音频数据包括所述字词。

16.根据权利要求15所述的系统，其中，所述处理设备进一步被配置成：

基于所述文本源的所述字词来选择所述物理效果；以及

基于所述场境数据来更新所述物理效果的属性。

17.根据权利要求11所述的系统，其中确定所述音频数据和文本源的数据之间的所述匹配包括使用所述文本源的音位数据来检测所述音频数据包括所述文本源的字词。

18.根据权利要求11所述的系统，其中所述文本源的所述数据包括音位数据，并且其中确定所述匹配包括计算所述文本源的音位数据和所述音频数据的音位数据之间的音位编辑距离。

19.根据权利要求11至18中的任一项所述的系统，其中所述场境数据包括指示孩子年龄的用户简档数据，并且其中所述物理效果包括基于所述孩子年龄来选择的声学效果。

20.一种存储指令的非易失性计算机可读存储介质，所述指令在由处理设备执行时，使所述处理设备执行根据权利要求1至10中的任一项所述的方法。