CN111919249A

CN111919249A - 词语的连续检测和相关的用户体验

Info

Publication number: CN111919249A
Application number: CN201980022622.5A
Authority: CN
Inventors: B.巴贝洛; K.佩德森; D.琼斯; T.万特兰德
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-04-09
Filing date: 2019-04-09
Publication date: 2020-11-10
Anticipated expiration: 2039-04-09
Also published as: US10930278B2; US20190311714A1; CN111919249B; WO2019199742A1; EP3776533A1

Abstract

提供系统来促进词语、名字、短语或其他感兴趣的声音的连续检测，以及响应于这种检测，提供相关的用户体验。该用户体验可以包括基于检测到的环境语音或其他声音提供对媒体、网络搜索、翻译服务、日志应用或其他资源的链接。为了保护那些使用和/或接近这种系统的人的隐私，除非系统从用户那里得到许可，否则系统禁止发送与检测到的声音相关的任何信息。这种许可可以包括用户与所提供的网络搜索链接、媒体链接或其他用户界面元素的交互。

Description

词语的连续检测和相关的用户体验

相关申请的交叉引用

本申请要求2018年4月9日提交的美国申请序列第15/948,378号的权益，其全部内容通过引用并入本文。

背景技术

包括蜂窝电话、家庭自动化电器和汽车的各种设备持续运行，以检测设备附近是否说出触发词或短语(例如，“好的，谷歌”)。当检测到这种触发词或短语时，设备提供一些相关的功能。这可以包括进入模式，其中在该模式下由设备检测和识别附加的语音，通常依靠服务器或其他远程系统的计算资源来执行语音识别和设备不能靠自己执行的或者设备不能执行到与这种远程系统相同程度的其他任务。然后，该设备可以基于识别的语音来执行附加动作，例如，通过回答问题、进行日历预约、设置计时器、报告天气、呼叫出租车或响应于检测到的语音来执行一些其他功能。

发明内容

本公开的一些实施例提供了系统，包括：(i)控制器；(ii)用户界面；以及(iii)非暂时性计算机可读介质。该非暂时性计算机可读介质包含存储的程序指令，该程序指令在由控制器执行时使得控制器执行操作，所述操作包括：(i)获得音频信号；(ii)确定该音频信号包含来自预定义的触发声音集的触发声音；(iii)响应于确定该音频信号包含该触发声音，访问数据库中对应于所确定的触发声音的条目；(iv)基于所访问的数据库条目，经由用户界面提供用户界面元素；(v)经由所提供的用户界面元素从用户接收输入，其中所接收的输入表示对发送与所访问的数据库条目相关的信息的许可；以及(vi)响应于经由所提供的用户界面元素接收该输入，基于所访问的数据库条目将信息请求发送到远程服务器。

本公开的一些实施例提供了方法，包括：(i)获得音频信号；(ii)确定该音频信号包含来自预定义的触发声音集的触发声音；(iii)响应于确定该音频信号包含该触发声音，访问数据库中对应于所确定的触发声音的条目；(iv)基于所访问的数据库条目，经由用户界面提供用户界面元素；(v)经由所提供的用户界面元素从用户接收输入，其中所接收的输入表示对发送与所访问的数据库条目相关的信息的许可；以及(vi)响应于经由所提供的用户界面元素接收输入，基于所访问的数据库条目将信息请求发送到远程服务器。

各方面可以在设备处提供对音频信号的自动分析，以确定该音频信号是否适合于进一步处理。如果确定该音频信号适合于进一步处理，则可以向用户提供用户界面元素，该用户界面元素允许用户提供确认该设备被允许在该设备处将信息发送到另一设备(诸如远程服务器)的输入。该输入可以使得与输入音频信号相关联的数据仅在接收到该用户输入的情况下才从设备发送。也就是说，除非接收到合适的用户输入，否则可以阻止从该设备发送与该音频信号相关的信息。因此，音频信号可以在该设备处被连续地分析，但是与该音频输入相关联的数据可以仅在用户指示这种发送被允许的情况下才从设备发送。

因此，各方面可以允许要分析的音频信号和与该音频信号相关联的信息被提供给用户。进一步的信息(例如，基于远程服务器的分析)可以被提供给用户，其中用户指示这种进一步的信息是期望的。因此，相对于其中需要用户输入来启动音频信号的分析的现有技术实施例，各方面可以以更少的用户输入向用户提供信息。可以额外地减少数据到远程服务器的发送，从而可以限制网络带宽的使用，并且还可以增强用户隐私。

通过阅读以下的详细描述，并适当参考附图，这些以及其他方面、优点和替换方案于本领域普通技术人员来说将变得明显。

附图说明

图1描绘了示例环境中的示例设备。

图2A描绘了示例设备。

图2B描述了示例设备。

图2C描绘了示例设备。

图3A描述了示例设备。

图3B描绘了图3A的示例设备。

图4是示例系统的框图。

图5是示例过程的流程图。

具体实施方式

在以下的详细描述中，参考了附图，其中该附图构成了本文的部分。详细描述、附图和权利要求中描述的说明性实施例不意味着限制。在不脱离本文呈现的主题的范围的情况下，可以利用其他实施例，并且可以进行其他改变。如本文中概括描述的和附图中示出的，本公开的各方面可以以各种不同的配置来安排、替换、组合、分离和设计。

I.概述

蜂窝电话或其他设备可用的声音(例如，环境声音、该设备生成的声音、从远程系统接收的音频流)可以提供关于该设备的操作和/或环境的基本情境或其他信息。特别地，这种声音可以提供关于用户的环境、位置、偏好、可能的未来动作或信息请求的信息，或者提供可以由设备用来向用户提供功能和/或改善该设备的整体功能的信息。例如，设备的环境中的环境声音可以提供关于用户位置的信息、关于用户正在体验的媒体的信息、关于用户正在从另一个人接收信息、关于用户可能参与的事件或景点(例如，餐馆)的时间或位置的信息、或者关于可能对用户有用的一些其他信息。

相应地，蜂窝电话或其他设备可以检测这种声音中的有用信息(例如，使用麦克风，通过对由该设备生成和/或接收的音频流进行采样)并执行与之对应的操作。这可以包括提供关于声音中存在的电影、歌曲或其他媒体的信息(例如，提供购买该媒体的链接)、提供声音中存在的关键短语的搜索链接(例如，声音中存在的餐馆、政治概念或语音中提到的人的搜索链接)、提供语音的转录(例如，供用户稍后参考)、提供与检测到的语音相关的暂定日历事件对象、或参与与检测到的语音或其他感兴趣的声音相关的一些其他功能。

然而，对环境声音进行这种连续、无处不在的检测和分类可能会产生不希望的作用。例如，如果关于这种检测到的环境声音的信息在没有用户许可或知情的情况下被显式地或隐式地提供给外部系统，则用户的隐私可能被侵犯。此外，对检测到的声音执行高质量的通用的语音识别会对设备的电池寿命产生显著的负面影响。

因此，可以操作蜂窝电话或其他设备，以在从设备的环境或从一些其他来源接收的音频信号中，检测来自预定义的触发声音集中的一个或多个触发声音(例如，词语、机械噪声、自然噪声、动物噪声、与感兴趣的特定语言相关联的噪声)的存在。通过从指定的触发声音集中检测触发声音，可以减少功率使用(例如，与执行完整的、通用的语音识别或其他声音处理相比)。响应于特定触发声音的检测，可以访问对应于检测到的触发声音的数据库条目。然后，基于所访问的数据库条目，可以向用户提供用户界面元素(例如，触摸屏上的按钮、提示、确认对话框)。例如，检测到的触发声音可以是关键短语(例如，“晚间新闻”、“分权”、“市政厅”)，并且所提供的用户界面元素可以是与关键短语相关的搜索链接。除非用户与用户界面元素交互，否则该设备可以避免提供与检测到的触发声音相关的任何信息。因此，用户与用户界面元素的交互充当隐式地(例如，通过执行相关搜索)或显式地(例如，通过将检测到的语音的转录上传到博客或其他社交媒体账户)向远程系统提供对与检测到的音频相关的信息的许可。

应该理解的是，以上实施例和本文描述的其他实施例是出于解释的目的而提供的，并且不旨在进行限制。

II.用户体验示例

图1描绘了环境中的用户100和设备110(例如，蜂窝电话)。环境中存在各种声源，包括从设备的扬声器发出的声音120a、来自用户的语音或其他声音120b、由电视产生的声音120d或其他声音(例如，来自电器、动物、风或其他气候噪声的声音)。设备110还可以自己生成音频信号，例如作为到电视、耳机的发送的音频流120c，或者来自设备110的其他发送的音频信号和/或经由有线或无线通信链路从一些其他源(例如，膝上型计算机、远程服务器、互联网、家庭媒体服务器)接收的音频流。

设备110可访问的(例如，经由麦克风，或者由于由设备110的处理器生成)这些音频信号可以提供可以以各种方式使用的重要信息。例如，该音频信息可以用于设置设备的操作模式，例如，如果该音频信号指示设备在电影院中或者用户正在开会或者在一些其他相关情境中，则使设备110的振铃器静音。附加地或可替换地，该音频信息可以用于促成新颖的应用。例如，该信息可用于确定用户可能想要的信息(例如，关于用户正在观看的电影和/或该电影中的演员的信息、对话中使用的艺术术语的搜索链接、对话中使用的本地餐馆的meno的链接)，并提供链接或其他用户界面元素来访问这种信息(例如，作为用户生活的始终在线的“自动完成”)。在另一示例中，音频信息可以用于为用户生成稍后可以参考的转录(例如，以参考用户在对话期间接收到并且后来忘记的信息或指令)。

该音频信息可以由设备(例如，110)以各种方式获得。例如，设备110可以操作一个或多个麦克风来获得与设备110的环境中存在的声音相关的音频信号(例如，用户的语音120b、来自附近电视的声音120d、自然声音、动物声音等)。附加地或可替换地，设备110可以通过一些其他方法来获得音频流，并且使用该音频流来生成音频信号，其中从该音频信号中检测关键短语或其他触发声音。这可以包括从外部系统(例如，家庭媒体服务器、视频流服务)接收音频流。在另一示例中，音频流可以由设备110本身生成(例如，为回放存储在设备上的音乐而生成的音频流、由运行在设备上的应用程序生成的音频流、为发送到无线耳机、电视、家庭音频系统或用于一些其他用途而生成的音频流)。

然而，操作来连续监控这种环境声音的设备110可能对用户的隐私造成风险。因此，在设备上执行与这种音频信息相关的许多处理是有益的，并且除非从用户接收到许可，否则避免提供关于该音频信息的信息是有益的。

A.连续环境触发声音检测

为了检测音频信号中的触发声音，设备(例如，110)的一个或多个处理器可以操作来将滤波器、分类器、神经网络、模式匹配算法和/或一些其他算法或算法组合应用于该音频信号。这种处理可以基本上连续进行。这些处理的输出可以包括确定该音频信号中存在来自预定义的触发声音集中的特定的触发声音。预定义的触发声音集可以包括词语、关键短语(例如，与姓名、概念、人、对象、位置或用户潜在感兴趣的其他事物相关的短语)、动物声音、自然声音、机械声音、交通声音、与一种或多种特定口说词语相关的声音或与用户潜在相关的其他声音。

通过将检测到的触发声音限制到预先选择的触发声音集，用于检测该触发声音的分类器或其他算法可以在复杂性上受到限制或以其他方式降低，以便使用非常小的功率来执行。例如，这种算法可以由数字信号处理器(digital signal processor，DSP)、专用集成电路(application-specific integrated circuit，ASIC)、或一些其他处理器或处理器系统来执行，以便有效且连续地确定输入音频信号是否包含一个或多个触发声音。在一些示例中，操作来检测输入音频信号中的触发声音的第一处理器可以用于唤醒或以其他方式转变第二处理器脱离低功率状态。第二处理器然后可以执行一些附加操作(例如，对缓冲的音频信号记录执行更密集的语音识别、执行数据库查找、提供用户界面、向远程服务器发送对附加信息的请求)。这种多处理器架构可以允许设备操作使用非常低的功率来连续扫描触发声音，仅在检测到触发声音时进入更高功率状态(例如，通过转换另一处理器的功率状态)。

附加地或可替换地，关于检测到的触发声音的信息(例如，检测到的触发声音的身份、检测到触发声音的计时、关键短语、词语、名称或与触发声音相关联的其他标签)可以被记录在设备上的本地存储器中(例如，执行触发声音检测的处理器的存储器中)。稍后，所记录的信息可以被使用(例如，由在检测到触发声音时处于睡眠状态的另一处理器)，并且基于所记录的信息来执行一些操作(例如，生成用户稍后可以用来回忆在过去的对话中接收的信息的个人转录、生成日历事件)。

B.环境声音触发的处理

本文描述的设备或系统可以响应于检测到触发声音，执行各种操作。在一些示例中，设备可以在本地存储器上存储关于检测到的触发声音的信息(例如，检测到的触发声音的身份、检测到触发声音的计时、关键短语、词语、名称或与触发声音相关联的其他标签)。为了保护用户的隐私，该信息可以在生成时使用用户生成的密钥或密码来加密，使得只有在输入该密码或密钥时，用户才可以访问存储的触发声音信息(例如，存储的会话转录)。可以向用户提供请求允许存储检测到的触发声音信息的用户界面元素(例如，按钮、对话框或触摸屏上的其他元素)。如果用户经由与用户元素的交互拒绝存储该触发声音信息，则可以丢弃该触发声音信息(例如，通过覆写包含该信息的暂时存储器)。

设备或系统可以响应于触发声音检测采取一些其他动作。这种动作可以基于数据库查找，其中预定触发声音集中的每个触发声音对应于数据库条目。一旦检测到特定的触发声音，就访问对应于检测到的触发声音的数据库条目，并基于所访问的数据库条目采取(多个)附加动作。

可以指定数据库条目和/或设备的其他操作，使得在采取可能影响用户隐私的任何行动之前需要用户许可(例如，通过发送对与检测到的触发声音相关的信息的请求，通过向远程系统上传命令，通过将检测到的语音的转录保存到本地或远程存储器)。这可以包括基于所访问的数据库元素提供用户界面元素(例如，触摸屏按钮、对话框等)。用户与用户界面元素的交互可以表示发送对与数据库条目和/或检测到的触发声音相关的信息的许可。这种许可可以是显式的(例如，用户可以经由对话框或其他用户界面元素来提供对向远程系统提供检测到的触发声音相关的信息的显式许可)。附加地或可替换地，这种许可可以是隐式的(例如，用户许可可以通过用户按下与检测到的关键短语相关的搜索链接的按钮来表示)。响应于接收到许可，设备然后可以向远程系统发送与检测到的触发声音相关的一些信息(例如，对附加信息的请求、对翻译服务的请求、对搜索结果的请求)。

在一些实施例中，检测到的触发声音表示关键短语。这种关键短语可以包括词语、短语或与感兴趣的概念相关的一些其他人类话语。这种关键短语可以表示名称(例如，人、位置、事物或概念的名称)、命令、时间、菜肴类型、关于歌曲、戏剧、电影、电视节目或其他媒体的名称或其他信息、歌曲的歌词、电影或其他媒体的名言、历史名言、法律、文化或科学的概念、或感兴趣的一些其他事物、事件或概念。响应于检测到这种关键短语而执行的处理(例如，基于对应于关键短语和/或与关键短语相关的触发声音的数据库条目而确定的处理)可以与该关键短语相关。

例如，响应于检测到关键短语，可以经由用户界面提供与关键短语相关的搜索链接。这种搜索链接可以包括对关键词本身进行搜索或对与关键词相关的(多个)项进行搜索的搜索链接。这通过图2A中的示例来示出，其中图2A描绘了蜂窝电话200。在蜂窝电话200的触摸屏上，已经提供了与检测到的关键短语相关的各种用户界面元素210a(触摸屏按钮)。因此，例如，可以响应于检测到一个或多个触发声音(例如，“4K”、“超高清”、“两倍HD”)来提供“4K电视”界面元素，该“4K电视”界面元素对应于指示蜂窝电话200提供到“4K电视”的搜索链接的数据库条目。类似地，“广泛性焦虑症”可以响应与检测到“总是担心”、“焦虑”或一些其他相关的触发声音来提供。数据库条目可以包括与附加处理相关的信息，例如，确定蜂窝电话200的当前位置或其他情境信息，并提供与检测到的关键短语和位置或其他附加信息的组合相关的搜索链接(例如，响应于检测到的关键短语“总是担心”和蜂窝电话200位于特定精神健康中心附近，提供对特定本地社区精神健康中心的搜索链接)。用户可以按下或以其他方式与所提供的用户界面元素之一进行交互，并且对与搜索链接相关的搜索结果(或一些其他信息)的请求可以被发送到远程服务器。

在一些示例中，检测到的关键短语可以与特定的歌曲、专辑、电影、电视系列、单集电视剧、戏剧、诗歌、视频游戏、书籍、新闻文章、科学文章、法规或其他媒体相关。例如，关键短语可以是电影的名言、单集电视剧的名称或电影中角色的名称。在这种示例中，数据库(例如，媒体标识数据库)可以用于确定响应于检测到关键短语而提供的用户界面元素。这种媒体标识数据库可以用于确定与关键短语相关联的特定记录或其他媒体的身份。这种媒体识别数据库可以包括电影中的台词的转录、歌曲中的歌词的转录、媒体中的角色、位置和/或演员姓名的列表、或者可以用于基于检测到的关键短语或其他相关触发声音来识别媒体的一些其他信息。然后可以向用户提供与识别的媒体相关的用户界面元素(例如，对媒体中的角色的搜索链接、购买特定记录的副本和/或相关商品的链接)。

这通过图2B中的示例来示出，其中图2B描绘了蜂窝电话200。在蜂窝电话200的触摸屏上，已经提供了与检测到的关键短语和/或识别的记录相关的各种用户界面元素210b(触摸屏按钮)。因此，例如，界面元素“John F.Kennedy”可以响应于检测到那个名字、检测到来自那个人的名言、识别突出描述那个人的特定记录而被提供。类似地，可以响应于基于检测到的关键短语识别该特定演说的记录而提供“JFK 1961就职演说”。用户可以按下或以其他方式与所提供的用户界面元素之一交互，并且对与搜索链接相关的搜索结果(或一些其他信息)的请求可以被发送到远程服务器。可替换的，所提供的用户界面元素可以是购买或以其他方式访问识别的媒体的链接(例如，提供对识别的媒体的记录的访问的在线流服务的链接)。在一些示例中，媒体标识数据库可以包括足以确定特定记录内特定关键短语的位置和/或时间的信息，并且可以基于该确定来提供用户界面元素。例如，用户界面元素可以是到视频的链接，从记录内对应于检测到的关键短语的位置开始。在另一示例中，所提供的用户界面元素可以提供进度条、时间指示或特定记录的进度和/或在识别的特定记录内的检测到的关键短语的位置的一些其他指示。

在一些示例中，检测到的触发声音可能足以从预定义的语言集中确定正在说的语言或与特定语言相关的语言。因此，检测触发声音可以允许对正在说的特定语言的识别。然后可以提供与识别的语言相关的用户界面元素。这可以包括提供对识别的语言的身份的指示、对识别的语言和/或相关话题的搜索链接(例如，对使用该语言的国家、对该语言的历史的搜索链接)。在一些示例中，用户界面元素可以表示开始翻译识别的语言的命令输入。这通过图2C中的示例来示出，其中图2C描绘了蜂窝电话200。在蜂窝电话200的触摸屏上，已经提供了请求允许开始翻译检测到的语音的用户界面元素210c(触摸屏按钮)。用户可以按下或以其他方式与所提供的用户界面元素交互，并且蜂窝电话200然后可以开始将检测到的语音从识别的语言翻译成预先指定的语言(例如，翻译成蜂窝电话200的用户的母语)。在一些示例中，蜂窝电话200可以维持过去检测到的音频信号的缓冲器，以允许对在用户请求这种翻译之前发生的语音部分的翻译。

这种翻译成预先指定的语言的结果然后可以经由用户界面来指示(例如，作为显示器上的文本，作为经由扬声器的合成语音)。这通过图3A中的示例来示出，其中图3A描绘了蜂窝电话300。在蜂窝电话300的触摸屏310a上，已经提供了指示将包含识别的(例如，意大利语)语言的语音的音频信号翻译成预先指定的语言(英语)的用户界面元素315a(文本框)。

蜂窝电话300(可选地与远程翻译服务器或(多个)其他远程系统协同)可以提供多于一种语言的翻译，例如，促进讲不同语言的两个人之间的双向对话。在这种示例中，可以从识别的语言(例如，意大利语)的语音到预先指定的语言(例如，英语，或者由蜂窝电话300的用户说的一些其他语言)以及从预先指定的语言的语音到识别的语言来确定翻译。然后可以经由用户界面提供两种翻译的指示(例如，作为屏幕上的文本)。

这可以包括经由蜂窝电话300的相对侧上的显示器来提供翻译。可以提供这种安排，以允许向参与谈话的两个人容易地显示翻译结果，其中蜂窝电话被放置在两个人之间。这通过在图3A和图3B中的示例来示出，其中图3A和图3B描绘了蜂窝电话300的第一显示器310a和第二显示器310b。显示器310a、310b放置在蜂窝电话300的相对侧。如图3A所示，在第一显示器310a上提供了从识别的语言到预先指定的语言的翻译的指示315a(文本框)。类似地，图3B示出了提供了从预先指定的语言到识别的语言的翻译的指示315b(文本框)的第二显示器310b。

从识别的语言到预先指定的语言的这种翻译可以与远程服务器协同执行，其中在这种情况下，按下按钮可以导致向远程服务器发送请求以帮助这种翻译(例如，运行实时翻译服务的服务器)。这种请求可以包括要翻译的音频样本。蜂窝电话300然后可以从远程服务器接收发送的音频样本的翻译。然后可以提供对接收到的翻译的指示(例如，经由蜂窝电话300的显示器310a)。类似地，表示用户语音的音频样本也可以被提供给远程翻译服务，并且用户语音的被翻译成识别的语言的翻译可以经由用户界面接收并指示。发送的(多个)音频信号可以包括已经被缓冲的音频信号部分，以允许对在用户请求这种翻译之前发生的语音部分的翻译。

III.示例系统

本文描述的计算功能(例如，从音频信号检测触发声音、基于这种触发声音执行数据库查找、提供用户界面、发送信息请求或基于这种数据库查找执行一些其他操作的功能)可以由一个或多个计算系统来执行。这种计算系统可以被集成到计算设备(诸如移动电话、平板计算机、膝上型计算机、服务器、家庭自动化元件、独立的视频捕捉和处理设备、云计算网络和/或可编程逻辑控制器)中或者采取计算设备(诸如移动电话、平板计算机、膝上型计算机、服务器、家庭自动化元件、独立的视频捕捉和处理设备、云计算网络和/或可编程逻辑控制器)的形式。出于示例的目的，图4是示出了示例计算设备400的一些组件的简化框图。

通过示例而非限制，计算设备400可以是蜂窝移动电话(例如，智能手机)、家庭安全系统的元件、计算机(诸如台式、笔记本、平板或手持计算机)、个人数字助理(personaldigital assistant，PDA)、家庭自动化组件、可穿戴计算设备或可以配备麦克风或以其他方式被配置成获得音频信号的一些其他类型的设备。应当理解，计算设备400可以表示物理设备(诸如蜂窝电话)、特定物理硬件平台，其中音频捕捉和声音检测过程在其上以软件形式操作、或者被配置成执行本文描述的功能的硬件和软件的其他组合。

如图4所示，计算设备400可以包括麦克风401、通信接口402、用户接口404、第一处理器406、第二处理器407和数据存储装置408，所有这些都可以通过系统总线、网络或其他连接机制410通信链接在一起。

通信接口402可以用于允许计算设备400使用电、磁、电磁、光或其他信号的模拟或数字调制与其他设备、接入网络和/或传输网络进行通信。因此，通信接口402可以促进电路交换和/或分组交换通信，诸如普通老式电话服务(plain old telephone service，POTS)通信和/或互联网协议(Internet protocol，IP)或其他分组通信。例如，通信接口402可以包括被安排用于与无线电接入网络或接入点进行无线通信的芯片组和天线。此外，通信接口402可以采取有线接口(诸如以太网、通用串行总线(Universal Serial Bus，USB)或高清多媒体接口(High-Definition Multimedia Interface，HDMI)端口)的形式或者包括有线接口(诸如以太网、通用串行总线或高清多媒体接口端口)。通信接口402也可以采取无线接口(诸如Wifi、

全球定位系统(global positioning system，GPS)或广域无线接口(例如，WiMAX或3GPP长期演进(Long-Term Evolution，LTE)))的形式或者包括无线接口(诸如Wifi、

全球定位系统(global positioning system，GPS)或广域无线接口(例如，WiMAX或3GPP长期演进(Long-Term Evolution，LTE)))。然而，可以在通信接口402上使用其他形式的物理层接口和其他类型的标准或专用通信协议。此外，通信接口402可以包括多个物理通信接口(例如，Wifi接口、

接口和广域无线接口)。

在一些实施例中，通信接口402可以用于允许计算设备400与其他设备、远程服务器、接入网络和/或传输网络通信。例如，通信接口402可以用于发送对信息的请求(例如，对搜索结果的请求、对音频信号的翻译的请求、对访问音频或视频流的请求)以及接收对这种请求的响应。通信接口402可以用于促进其他通信，例如，将音频流发送到无线耳塞或一些其他接收设备，或者从流服务接收音频或视频流。

用户接口404可以用于允许计算设备400与用户交互，例如，从用户接收输入和/或向用户提供输出。因此，用户接口404可以包括输入组件，诸如小键盘、键盘、触敏或存在敏感(presence-sensitive)面板、计算机鼠标、轨迹球、操纵杆、麦克风等。用户接口404还可以包括一个或多个输出组件，诸如可以与存在敏感面板组合的显示屏。显示屏可以基于CRT、LCD和/或LED技术、或者现在已知或以后开发的其他技术。用户接口404还可以被配置成经由扬声器、扬声器插孔、音频输出端口、音频输出设备、耳机和/或其他类似设备来生成听觉输出。在一些实施例中，用户接口404可以包括显示器或其他用户界面元素，该用户界面元素可以用于向用户呈现与检测到的触发声音相关的用户界面元素(例如，搜索链接、允许信息发送的确认对话框、翻译环境音频的请求)。

处理器406、407可以各自包括一个或多个通用处理器(例如，微处理器)和/或一个或多个专用处理器(例如，数字信号处理器(DSP)、图形处理单元(graphics processingunit，GPU)、浮点单元(floating point unit，FPU)、网络处理器或专用集成电路(ASIC))。在一些情况下，专用处理器能够进行模式匹配、应用分类器、执行音频滤波、应用小波变换或与在音频信号中从预先指定的触发声音集检测触发声音的存在相关的其他音频处理任务。数据存储装置408可以包括一个或多个易失性和/或非易失性存储组件，诸如磁、光、闪存或有机存储，并且可以整体或部分地与处理器406、407集成。数据存储装置408可以包括可移动和/或不可移动组件。

处理器406、407中的一个或两个能够执行存储在数据存储装置408中的程序指令418(例如，已编译或未编译的程序逻辑和/或机器代码)，以执行本文描述的各种功能。因此，数据存储装置408可以包括其上存储程序指令的非暂时性计算机可读介质，其中该程序指令在由计算设备400执行时使得计算设备400执行本说明书和/或附图中公开的任何方法、过程或功能。在一些示例中，第一处理器406可以操作来检测输入音频信号中的触发声音，并且响应于检测到这种触发声音，然后可以操作来改变第二处理器407的操作状态，例如，将第二处理器407从低功率状态唤醒。

举例来说，程序指令418可以包括安装在计算设备400上的操作系统422(例如，操作系统内核、设备驱动程序和/或其他模块)和数据库420(例如，响应于检测到触发声音而执行的操作的数据库、媒体标识数据库)。

IV.示例方法

图5是方法500的流程图。方法500包括获得音频信号(502)。这可以包括操作麦克风以从设备的环境中获得音频信号。附加地或可替换地，音频信号可以从由设备生成的音频流(例如，由存储的音频记录的回放)、由设备从外部系统接收的音频流(例如，从视频流服务)中获得，或者经由一些其他方法获得。

方法500进一步包括确定音频信号包含来自预定义的触发声音集的触发声音(504)。这可以包括应用分类器、模式匹配算法、人工神经网络、小波变换或一些其他算法来确定音频信号是否包含来自预定触发声音集的触发声音。

方法500还包括，响应于确定音频信号包含触发声音，访问数据库中对应于所确定的触发声音的条目(506)。在一些示例中，来自预定义的触发声音集的多个触发声音可以对应于单个数据库条目。

方法500还包括基于所访问的数据库条目，经由用户界面提供用户界面元素(508)。这可以包括提供搜索链接以搜索与触发声音相关的信息，提供命令输入以开始翻译音频信号，提供确认对话框以允许记录和/或上传音频信号和/或由此确定的信息，或者提供一些其他用户界面元素。

方法500还包括经由所提供的用户界面元素从用户接收输入，其中所接收的输入表示对发送与所访问的数据库条目相关的信息的许可(510)。接收输入可以包括按下用户界面元素的按钮(例如，触摸屏上的按钮)、滑动用户界面元素、输入密码或代码、或者以一些其他方式提供输入。

方法500还包括，响应于经由所提供的用户界面元素接收输入，基于所访问的数据库条目将信息请求发送到远程服务器(512)。这可以包括发送对识别的视频或音频记录的请求、发送对搜索结果的请求、发送翻译音频信号的请求或者发送对一些其他信息的请求。

方法500可以包括附加的或可替换的步骤。方法500可以包括确定音频信号中存在关键短语，确定特定记录与该音频信号的全部或一部分相关联，确定该音频信号中存在特定语言，或者基于该音频信号执行一些其他确定。方法500可以包括发送对与从音频信号中确定的检测到的关键短语或其他信息相关的信息(例如，搜索结果、音频或视频流)的请求。方法500可以包括接收音频信号内容的翻译，并提供对音频信号内容的翻译的指示。方法500可以包括附加步骤。

本文描述的方法500或其他操作可以由执行存储在计算机可读介质中的指令的一个或多个处理器或其他计算设备来执行。存储在计算机可读介质中的指令可以包括当由处理器或其他计算设备执行时可以导致本文描述的任何方法或其他操作的全部或部分的执行的指令。包含该指令的计算机可读介质可以是包括执行该指令的计算设备的系统的部分(例如，计算机、服务器、平板电脑、楼宇自动化控制器、蜂窝电话或其他设备或系统的硬盘、固态存储器、RAM、ROM或其他计算机可读记忆存储)，或者可以是与这种系统(例如，云存储服务、网络附加存储设备、可通过互联网访问的应用商店)通信的系统的部分。

V.结论

图中所示的特定安排不应被视为限制。应当理解，其他实施例可以包括给定附图中所示的或多或少的每个元件。进一步，一些示出的元件可以被组合或省略。更进一步，示例性实施例可以包括附图中未示出的元件。

此外，虽然本文已经公开了各种方面和实施例，但是其他方面和实施例对于本领域技术人员来说是明显的。本文公开的各种方面和实施例是为了说明的目的，而不旨在限制，带有由以下权利要求指示的真正的范围和精神。在不脱离本文呈现的主题的精神或范围的情况下，可以利用其他实施例，并且可以进行其他改变。容易理解的是，如在本文一般性描述的和在附图中示出的，本公开的方面可以以各种不同的配置来安排、替换、组合、分离和设计。

Claims

1.一种系统，包括：

控制器；

用户界面；和

非暂时性计算机可读介质，具有存储在其上的程序指令，所述程序指令在由所述控制器执行时使得所述控制器执行操作，所述操作包括：

获得音频信号；

确定所述音频信号包含来自预定义的触发声音集中的触发声音；

响应于确定所述音频信号包含所述触发声音，访问数据库中与所确定的触发声音相对应的条目；

基于所访问的数据库条目，经由所述用户界面提供用户界面元素；

经由所提供的用户界面元素从用户接收输入，其中所接收的输入表示对发送与所访问的数据库条目相关的信息的许可；以及

响应于经由所提供的用户界面元素接收输入，基于所访问的数据库条目将信息请求发送到远程服务器。

2.根据权利要求1所述的系统，其中获得音频信号包括操作麦克风以生成所述音频信号。

3.根据权利要求1所述的系统，其中所述操作还包括：

获得音频流；以及

经由扬声器或无线无线电发送器中的至少一个发送所述音频流，其中获得音频信号包括对所生成的音频流进行采样。

4.根据权利要求1所述的系统，其中确定所述音频信号包含触发声音是由第一处理器执行的，其中基于所访问的数据库条目来提供用户界面元素是由第二处理器执行的，并且其中控制器操作还包括：

响应于确定所述音频信号包含所述触发声音，转变所述第二处理器脱离低功率状态。

5.根据权利要求1所述的系统，其中确定所述音频信号包含触发声音包括在所述音频信号中检测关键短语。

6.根据权利要求5所述的系统，其中基于所访问的数据库条目来提供用户界面元素包括提供与检测到的关键短语相关的搜索链接。

7.根据权利要求5所述的系统，其中基于所访问的数据库条目来提供用户界面元素包括使用媒体标识数据库来基于检测到的关键短语确定在所述音频信号中表示的特定记录的身份。

8.根据权利要求7所述的系统，其中基于所访问的数据库条目提供用户界面元素包括提供与检测到的特定记录相关的搜索链接。

9.根据权利要求1所述的系统，其中确定所述音频信号包含触发声音包括确定在所述音频信号中表示的语言的身份。

10.根据权利要求9所述的系统，其中基于所访问的数据库条目提供用户界面元素包括提供命令输入以开始将所述音频信号中表示的所述语言翻译成预先指定的语言。

11.根据权利要求10所述的系统，其中将信息请求发送到远程服务器包括将要翻译的音频样本发送到远程服务器，并且其中所述操作还包括：

从所述远程服务器接收所发送的音频样本的翻译；以及

经由所述用户界面提供对所接收的翻译的指示。

12.根据权利要求11所述的系统，其中所发送的音频样本表示所识别的语言的语音的第一部分和所述预先指定的语言的语音的第二部分，其中所接收的翻译包括所述语音的第一部分的到所述预先指定的语言的第一翻译和所述语音的第二部分的到所识别的语言的第二翻译，并且其中经由所述用户界面提供对所接收的翻译的指示包括在所述用户界面的第一显示器上提供对所述第一翻译的指示、并在所述用户界面的第二显示器上提供对所述第二翻译的指示。

13.根据权利要求11所述的系统，其中所述操作还包括：

将所述音频信号的至少部分记录到缓冲器中，并且其中将要翻译的音频样本发送到远程服务器包括发送记录在所述缓冲器中的所述音频信号的所述部分。

14.一种方法，包括：

获得音频信号；

响应于经由所提供的用户界面元素接收所述输入，基于所访问的数据库条目将信息请求发送到远程服务器。

15.根据权利要求14所述的方法，其中确定所述音频信号包含触发声音是由第一处理器执行的，其中基于所访问的数据库条目来提供用户界面元素是由第二处理器执行的，并且其中所述操作还包括：

响应于检测到所述音频信号中的触发声音，转变所述第二处理器脱离低功率状态。

16.根据权利要求14所述的方法，其中基于所访问的数据库条目来提供用户界面元素包括使用媒体标识数据库来基于检测到的关键短语确定在音频信号中表示的特定记录的身份。

17.根据权利要求16所述的方法，其中基于所访问的数据库条目提供用户界面元素包括提供与检测到的特定记录相关的搜索链接。

18.根据权利要求14所述的方法，其中确定所述音频信号包含触发声音包括确定在所述音频信号中表示的语言的身份。

19.根据权利要求18所述的方法，其中基于所访问的数据库条目提供用户界面元素包括提供命令输入以开始将所述音频信号中表示的语言翻译成预先指定的语言。

20.根据权利要求19所述的方法，其中将信息请求发送到远程服务器包括将要翻译的音频样本发送到远程服务器，并且其中所述操作还包括：

从所述远程服务器接收所发送的音频样本的翻译；以及

经由所述用户界面提供对所接收的翻译的指示。

21.根据权利要求20所述的方法，其中所发送的音频样本表示所识别的语言的语音的第一部分和所述预先指定的语言的语音的第二部分，其中所接收的翻译包括所述语音的第一部分的到所述预先指定的语言的第一翻译和所述语音的第二部分的到所识别的语言的第二翻译，并且其中经由所述用户界面提供所接收的翻译的指示包括在所述用户界面的第一显示器上提供对所述第一翻译的指示、并在所述用户界面的第二显示器上提供对所述第二翻译的指示。

22.根据权利要求20所述的方法，其中所述操作还包括：

将所述音频信号的至少部分记录到缓冲器中，并且其中将要翻译的音频样本发送到所述远程服务器包括发送记录在所述缓冲器中的所述音频信号的所述部分。