CN108702572B

CN108702572B - 控制音频输出的方法、系统和介质

Info

Publication number: CN108702572B
Application number: CN201680081796.5A
Authority: CN
Inventors: 尼马·洛特菲扎德赫
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-05-25
Filing date: 2016-12-08
Publication date: 2021-04-06
Anticipated expiration: 2036-12-08
Also published as: WO2017204854A1; US20190317723A1; US10268445B2; CN108702572A; US20170344336A1; US20180210699A1; EP3466115A1; US9921800B2; EP4109924B1; US20200409654A1; US10776074B2; EP4109924A1; EP3466115B1; US11294620B2; US20230046580A1

Abstract

提供了用于控制音频输出的方法、系统和介质。在一些实施方式中，提供了一种用于控制音频输出的方法，该方法包括：由计算设备接收要呈现的音频内容；确定计算设备的输出端口连接到对应的连接器；在输出端口提供音频内容；使用麦克风记录音频的第一部分；确定音频内容存在于音频的第一部分中；继续在输出端口提供音频内容；使用麦克风记录音频的第二部分；确定音频内容不存在于音频的第二部分中；并使用计算设备的扬声器呈现音频内容。

Description

控制音频输出的方法、系统和介质

相关申请的交叉引用

本申请要求2016年5月25日提交的美国专利申请No.15/164,406的权益，该申请通过引用整体并入本文。

技术领域

提供了用于控制音频输出的方法、系统和介质。

背景技术

主要通过用户给出的音频命令与用户交互的设备、以及通过内置扬声器提供给用户的音频反馈最近变得更加流行。使用这样的设备，用户可以提出问题，指示消息，收听由设备大声读出的书面消息，播放音乐，以及通过音频交互执行其他任务，而无需与图形用户界面交互。一些用户可能希望将这些设备连接到外部扬声器，但是如果外部扬声器关闭或者不播放通过设备输出的音频，则这可能限制设备的有用性。

因此，提供了用于控制音频输出的新方法、系统和介质。

发明内容

根据所公开主题的一些实施方式，提供了用于控制音频输出的机制。

根据所公开的主题的一些实施方式，提供了一种用于控制音频输出的方法，该方法包括：由计算设备接收要呈现的音频内容；确定所述计算设备的输出端口连接到对应的连接器；响应于确定所述输出端口连接到所述对应的连接器，在所述输出端口提供所述音频内容；使用所述计算设备的麦克风记录音频的一部分；确定所述音频内容是否存在于音频的所述部分中；在确定音频内容存在于音频的所述部分中之后，继续在所述输出端口提供所述音频内容；并且响应于确定所述音频内容不存在于音频的所述部分中，使用所述计算设备的扬声器呈现所述音频内容。

根据所公开主题的一些实施方式，提供了一种用于控制音频输出的系统，该系统包括计算设备，所述计算设备所述包括：输出端口；麦克风；扬声器；以及硬件处理器，其被编程为：接收要呈现的音频内容；确定所述计算设备的所述输出端口连接到对应的连接器；响应于确定所述输出端口连接到所述对应的连接器，在所述输出端口提供所述音频内容；使用所述麦克风记录音频的一部分；确定所述音频内容是否存在于音频的所述部分中；在确定所述音频内容存在于音频的所述部分之后，继续在所述输出端口提供所述音频内容；并且响应于确定音频的所述部分中不存在所述音频内容，使用所述扬声器呈现所述音频内容。

根据所公开主题的一些实施方式，提供了一种包含计算机可执行指令的非暂时性计算机可读介质，所述计算机可执行指令在由处理器执行时使所述处理器执行用于控制音频输出的方法，所述方法包括：由计算设备接收要呈现的音频内容；确定所述计算设备的输出端口连接到对应的连接器；响应于确定所述输出端口连接到所述对应的连接器，在所述输出端口提供所述音频内容；使用所述计算设备的麦克风记录音频的一部分；确定所述音频内容是否存在于音频的所述部分中；在确定所述音频内容存在于音频的所述部分之后，继续在所述输出端口提供所述音频内容；并且响应于确定所述音频内容不存在于音频的所述部分中，使用所述计算设备的扬声器呈现所述音频内容。

根据所公开的主题的一些实施方式，提供了一种用于控制音频输出的系统，该系统包括：用于输出音频信号的装置；用于记录音频的装置；用于呈现音频内容的装置；用于接收要呈现的音频内容的装置；用于确定用于输出音频信号的装置连接到对应连接器的装置；响应于用于确定输出端口连接到对应连接器的装置，用于在用于输出音频信号的装置处提供音频内容的装置；用于使用用于记录音频的装置记录音频的第一部分的装置；用于确定音频内容存在于音频的第一部分中的装置；用于继续在用于输出音频信号的装置处提供音频内容的装置；用于使用用于记录音频的装置记录音频的第二部分的装置；用于确定音频内容不存在于音频的第二部分中的装置；以及，响应于用于确定音频内容不存在于音频的第二部分中的装置，用于使用计算设备的扬声器呈现音频内容的装置。

在一些实施方式中，该系统还包括：用于确定用于输出音频信号的装置不再连接到对应连接器的装置；以及，响应于用于确定用于输出音频的装置不再连接到对应连接器的装置，用于禁止将音频内容提供给用于输出音频信号的装置的装置。

在一些实施方式中，用于确定音频内容存在于音频的第一部分中的装置包括：用于基于音频的第一部分生成音频指纹的装置；用于确定基于音频的第一部分的音频指纹与基于音频内容生成的音频指纹匹配的装置；以及，响应于用于确定基于音频的第一部分的音频指纹与基于音频内容生成的音频指纹匹配的装置，用于确定音频内容存在于音频的第一部分中的装置。

在一些实施方式中，用于确定音频内容存在于音频的第一部分中的装置包括：用于计算在输出端口处提供的音频内容的一部分与音频的第一部分之间的差异的装置；以及，用于基于所述差异确定音频内容存在于音频的第一部分中的装置。

在一些实施方式中，用于输出音频信号的装置是3.5毫米插孔。

在一些实施方式中，所述系统还包括：响应于用于确定音频内容存在于音频的第一部分中的装置，用于禁止使用计算设备的扬声器呈现音频内容的装置。

附图说明

当结合以下附图考虑时，参考以下对所公开主题的详细描述，可以更全面地理解所公开的主题的各种目的、特征和优点，在附图中，相同的附图标号表示相同的元件。

图1示出了根据所公开主题的一些实施方式的用于控制音频输出的系统的示例。

图2示出了根据所公开的主题的一些实施方式的系统的概括示意图的示例，在该系统上可以实现如本文所述的用于控制音频输出的机制。

图3示出了根据所公开主题的一些实施方式的、可用于实现图2中描绘的计算设备、外部声音系统和内容递送服务器之一的硬件的示例。

图4示出了根据所公开主题的一些实施方式的用于控制音频输出的过程的示例。

具体实施方式

根据所公开主题的一些实施方式，提供了用于控制音频输出的机制(可包括方法、系统和介质)。

在一些实施方式中，本文描述的机制可以控制来自计算设备的音频的输出，该计算设备可以通过到一个或多个外部扬声器的音频用户接口与用户交互。在一些实施方式中，用户可以使用任何合适的技术或技术组合来请求计算设备呈现音频内容。例如，用户可以通过经由说出一个或多个单词的语音命令、通过诸如智能手机或平板计算机之类的另一设备上的应用、通过计算设备的图形用户界面和/或通过任何其他合适的用户界面来发出请求。在一些实施方式中，音频内容可以是任何合适的音频内容和/或可以从任何合适的源提供。例如，音频内容可以是存储为诸如音乐或有声书之类的一个或多个音频信号的内容。作为另一示例，音频内容可以是从诸如文章、消息(例如，电子邮件、文本消息等)、食谱、web页面等文本转换为音频的内容。在这样的示例中，音频内容可以从任何合适的源获得，该任何合适的源例如是：计算设备的内部存储器；计算设备可以从其访问内容的另一设备本地设备的内部存储器(例如，智能电话、平板电脑、个人计算机、网络附加存储器等)；与计算设备的用户相关联的远程存储装置(例如，服务器)；提供对音频内容的访问的服务(例如，流音频服务、流视频服务等)；提供对web页面的访问的web服务器；和/或，任何其他合适来源。在更具体的示例中，用户可以说出一个或多个单词，其请求计算设备从可以通过用户账户访问的特定流媒体音乐服务播放来自特定艺术家的音乐。

在一些实施方式中，计算设备可以接收要呈现的音频内容，并确定是通过内部扬声器呈现音频内容还是输出音频内容以供外部扬声器呈现。例如，用户可以将计算设备的音频输出连接到外部声音系统，该外部声音系统包括可以为用户提供主观上更愉快的音频体验的外部扬声器。在更具体的示例中，用户可以将一端具有3.5毫米(mm)插头的电缆连接到计算设备的3.5毫米输出插孔，并且可以将电缆的另一端连接到音频视频接收器的插孔，音频视频接收器连接到一个或多个外部扬声器。

在一些实施方式中，计算设备可以检测到音频输出连接到对应的连接器，并且尝试确定提供给连接器的音频是否由外部扬声器呈现。例如，计算设备可以检测到3.5mm插孔连接到具有3.5mm插头具有的一个或多个属性的东西。在一些实施方式中，当检测到连接器时，计算设备可以将音频内容提供给音频输出，并记录由计算设备的麦克风产生的信号。在一些实施方式中，计算设备可以将记录的信号与输出信号进行比较，以确定正在输出的信号是否正由任何附近的(例如，足够接近以足够的音量记录)外部扬声器播放。例如，计算设备可以用麦克风记录其周围环境，并将记录的信号与在输出到音频输出的音乐进行比较，以确定麦克风是否记录了相同的音乐。

在一些实施方式中，如果记录的音频与正被提供给音频输出的音频不匹配，则计算设备可以使用内部扬声器呈现音频内容。例如，如果音频视频接收器断电，则计算设备可以确定在提供给3.5mm插孔的音乐不存在于记录的音频信号中，并且可以开始通过内部扬声器播放音乐。

转到图1，示出了根据所公开主题的一些实施方式的用于控制音频输出的系统的示例100。在一些实施方式中，系统100可以包括计算设备102，其可以包括输出连接器104。输出端口104可以是用于与外部声音系统106传送音频信息的任何合适的输出连接器。例如，输出端口104可以是接受3.5毫米连接器的3.5毫米插孔、光纤音频端口(例如，接受TOSLINK连接器)、RCA插孔、高清多媒体接口(HDMI)端口、通用串行总线(USB)端口(例如，USB 2.x端口、USB 3.x端口等)、THUNDERBOLT端口、以太网端口(无论是有线还是无线)、任何其他合适的端口和/或任何合适的端口组合。

在一些实施方式中，外部声音系统106可以是能够接收音频信号且将音频信号(可能通过一个或多个中间设备)输出到一个或多个扬声器的任何合适设备。例如，外部声音系统106可以是音频视频(AV)接收器、扬声器、放大器、音频开关、HDMI开关、任何其他合适的外部声音系统和/或其任何合适的组合。更具体地、外部声音系统106可以包括扬声器、用于渲染诸如模拟和/或数字音频和/或视频数据之类的媒体内容的硬件和/或软件、电源等。外部声音系统106可以包括各种输入端口，用于从各种源接收音频和/或视频数据。这样的输入端口可以包括一个或多个HDMI端口、一个或多个分量视频端口、一个或多个复合视频端口、一个或多个USB端口、一个或多个S-Video端口、一个或多个TOSLINK端口、一个或多个同轴端口一个或多个以太网端口(无论是有线还是无线)等。附加地或替选地，在一些实施方式中，外部声音系统106可以被配置为通过任何合适的无线连接接收音频，例如，通过到局域网的连接(例如，通过符合IEEE 802.11x协议系列之一的连接，IEEE 802.11x协议系列有时称为Wi-Fi连接)或在外部声音系统106和计算设备102之间的无线连接，该无线连接例如是ad hoc无线网络连接、短距离无线通信协议(例如，蓝牙、蓝牙低功耗、无线USB等)等。

在一些实施方式中，计算设备102可以通过连接110连接到外部声音系统106。可以使用一个或多个任何合适的技术连接计算设备102和外部声音系统106。例如，连接110可以包括合适的电缆，例如立体声电缆、RCA电缆、HDMI电缆，其可以连接在输出端口104和外部音频系统106的端口之间。作为另一个示例，连接110可以包括无线连接，例如到局域网的连接(例如，通过Wi-Fi连接)或在计算设备102和外部声音系统106之间建立的无线连接(例如ad hoc无线网络连接、短距离无线通信协议(例如，蓝牙、蓝牙低功耗、无线USB等))等。附加地或替选地，媒体流设备102可以被包括作为外部声音系统106的硬件和/或软件。

在一些实施方式中，计算设备102可以使用通信链路114耦合到用户设备112。用户设备112可以是任何合适的设备，诸如智能电话、平板电脑、可穿戴计算机、膝上型计算机、个人计算机、电子阅读器、数字媒体接收器、智能电视、游戏机、任何其他合适的计算设备或其任何合适的组合。在一些实施方式中、通信链路114可以包括任何合适的通信链路，例如，如下面结合图2所描述的。另外，通信链路114可以包括网络，例如具有有线和/或无线连接的局域网(LAN)。附加地或替选地，通信链路114可以包括用户设备112和计算设备102之间的无线连接，诸如ad hoc无线网络连接、短距离无线通信协议(例如，蓝牙、低功耗蓝牙、无线USB等)。在一些实施方式中，可以使用一个或多个任何合适的加密技术来加密用户设备112和计算设备102之间通过通信链路114的通信。例如，可以使用任何合适的加密方案，例如使用用于加密和解密消息的公钥-私钥对，来加密从用户设备112发送到计算设备102的消息。作为另一个示例，可以使用传输层安全性(TLS)来加密通信链路114上的通信。

在一些实施方式中，用户设备112可以包括用于向用户呈现用户界面的显示器116。在本文描述的一些示例中，用户设备112可以是诸如智能电话或平板电脑的移动计算设备，并且显示器116可以包括用于接收输入并向用户显示用户界面和/或媒体内容的触摸屏。

在一些实施方式中，计算设备102和/或用户设备112可以通过通信链路126与内容发现服务器122通信。计算设备102和/或用户设备112可以与内容发现服务器122通信以发现和/或浏览使得通过内容递送服务器120可获得的内容。例如，用户可以使用用户设备112通过与内容发现服务器122交互来查找要呈现的媒体内容。在一些实施方式中，可以使用显示器116、一个或多个扬声器、音频输出(例如，3.5mm插孔)、任何其他合适的呈现设备或其任何合适的组合呈现这样的媒体内容。在一些实施方式中，用户设备112可以通过从内容递送服务器120请求媒体内容项并通过通信链路124接收媒体内容项来呈现使用内容发现服务器122选择的媒体内容项。在一些实施方式中，可以在任何合适数量的服务器上实现每个内容递送服务器120和/或内容发现服务器122。附加地或替选地，在一些实施方式中，由内容递送服务器120和内容发现服务器122执行的功能可以由相同的设备(例如，通过公共服务器计算机)执行。在一些实施方式中，多个内容递送服务器可以响应于对内容的请求向用户设备112提供内容。例如，响应于来自用户设备112的对特定媒体内容项的请求，内容递送服务器120可以使得在呈现所请求的内容项之前、期间和/或之后向用户设备112提供广告。在这样的示例中，提供广告的服务器可以与提供所请求的媒体内容项的服务器分离。

在一些实施方式中，通信链路124和/或126可以包括局域网(例如，家庭网络)和/或非本地网络(例如，因特网)。例如，计算设备102和/或用户设备112可以连接到诸如家庭网络的公共LAN，并且可以通过因特网连接到内容发现服务器122和/或内容递送服务器120。作为另一示例，内容递送服务器120和/或内容发现服务器122可以连接到计算设备102和/或用户设备112共用的LAN。在更具体的示例中，内容递送服务器120和/或内容发现服务器122可以远离计算设备102和/或用户设备112定位，并且通信链路124和/或126可以包括非本地网络，例如因特网，用于从内容递送服务器120访问内容和/或使用内容发现服务器122发现内容。在另一个更具体的示例中，内容递送服务器120和/或内容发现服务器122可以定位到计算设备102和/或用户设备112本地，并且通信链路124和/或126可以包括本地网络，例如家庭网络，内容递送服务器120和/或内容发现服务器122连接到该家庭网络。在这样的示例中，当从内容递送服务器120访问内容和/或使用内容发现服务器122发现内容时，可以不使用通信链路124和/或126(如果存在)的非本地网络。

在一些实施方式中，用户设备112的用户可以使得通过内容递送服务器120使得可获得的媒体内容被发送到计算设备102，计算设备102又可以使用集成在计算设备102中的扬声器来呈现媒体内容，和/或将媒体内容输出到外部声音系统106。

在一些实施方式中，计算设备102的用户可以与计算设备102交互以请求媒体内容。例如，计算设备102可以接收记录音频信号并确定用户说出所述一个或多个单词，可以将单词解释为请求媒体内容的指令，并且可以基于该指令采取一个或多个动作。

在一些实施方式中，当要使用计算设备102从内容递送服务器120呈现媒体内容项时，可以通过通信链路128将媒体内容项发送到计算设备102。通信链路128可以包括就局域网(例如，家庭网络)和/或非本地网络(例如，因特网)。例如，计算设备102和用户设备112都可以连接到诸如家庭网络的公共LAN，并且可以通过因特网连接到内容递送服务器120。作为另一示例，内容递送服务器120可以连接到用户设备112和/或计算设备102共用的LAN。在更具体的示例中，内容递送服务器120可以远离计算设备102和/或用户设备112定位，并且通信链路128可以包括诸如因特网之类的非本地网络，用于从内容递送服务器120访问内容。在另一个更具体的示例中，内容递送服务器120可以位于计算设备102和/或用户设备112本地，并且通信链路128可以包括计算设备102和内容递送服务器120都连接到的本地网络，例如家庭网络。在这样的示例中，当从内容递送服务器120访问内容时，可以不使用通信链路128的非本地网络(如果存在的话)。

在一些实施方式中，用户可以从用户设备112的存储器中选择要使用计算设备102呈现的媒体内容项(例如，用户可以选择本地存储在用户设备112上的视频)。附加地或替选地，用户可以使用存储在同一局域网上存在的另一计算设备(例如，网络附连存储、在家庭网络上的个人计算机的存储器、在同一网络上的服务器上的存储器等)上的计算设备102来选择要呈现的媒体内容项。存储在连接到局域网的计算设备上的这种媒体内容项可以通过通信链路114(或任何其他合适的通信链路)从用户设备112发送到计算设备102，而不通过内容递送服务器120发送。

图2示出了系统的一般示意图的示例200，在该系统上可以根据所公开的主题的一些实施方式实现如本文所述的用于控制音频输出的机制。如图所示，系统200可以包括一个或多个用户设备112。用户设备112可以彼此本地或彼此远离。用户设备112可以通过一个或多个通信链路202连接到通信网络204，通信网络204可以经由通信链路210链接到一个或多个计算设备102，经由通信链路208链接到内容递送服务器120，经由通信链路212链接到内容发现服务器122，以及经由通信链路202链接到其他用户设备112。

在一些实施方式中，用户设备112、内容递送服务器120、内容发现服务器122和计算设备102中的每一个可以是诸如计算机的通用设备或诸如客户端、服务器等的专用设备中的任何一个。这些通用或专用设备中的任何一个都可以包括任何合适的组件，例如硬件处理器(其可以是微处理器、数字信号处理器、控制器、现场可编程门阵列、复杂可编程逻辑设备、专用集成电路等)、存储器，通信接口、显示控制器、输入设备等。例如，用户设备112可以实现为智能手机、平板电脑、可穿戴计算机、个人计算机、笔记本电脑等。计算机、游戏机、数字媒体接收器、机顶盒、智能电视、服务器等。作为另一个示例，计算设备102可以实现为无线扬声器、语音命令设备、提供数字助理服务的设备、个人电脑、笔记本电脑、游戏机、智能电视、智能手机、平板电脑、可穿戴电脑、数字媒体接收器、机顶盒、智能电视、服务器、连接到和/或可以连接到内部和/或外部扬声器等的任何合适的家庭自动化设备。

通信网络204可以是任何合适的计算机网络或这种网络的组合，包括因特网、内联网、广域网(WAN)、局域网(LAN)、无线网络、数字订户线(DSL)网络、帧中继网络、异步传输模式(ATM)网络、虚拟专用网络(VPN)等。通信链路202、208、210和212可以是适合于在用户设备112、计算设备102、内容递送服务器120和内容发现服务器122之间传送数据的任何通信链路，诸如网络链接、拨号链接、无线链接、硬连线链接、任何其他合适的通信链接或这些链接的任何合适组合。用户设备112可以使用一个或多个任何合适的技术发现、浏览、下载、流式传输、存储、回放、传输和/或以其它方式呈现本地存储在用户设备112处和/或远程存储在内容递送服务器120处的内容。另外，在一些实施方式中，计算设备102可以使用一个或多个任何合适的技术发现、浏览、下载、流式传输、存储、回放、传输和/或以其它方式呈现本地存储在计算设备102处和/或远程存储在内容传递服务器120处的内容。

系统200可以包括如上结合图1所述的计算设备102，并且可以包括安装在一个或多个外部声音系统106上和/或由其执行的应用，其可以复制本文所述的计算设备102的功能。

系统200可以包括一个或多个内容递送服务器120。内容递送服务器120可以是用于根据本文描述的机制提供对媒体内容项的访问的任何合适的服务器，例如处理器、计算机、数据处理设备和/或这样的设备的任何合适组合。

系统200可以包括一个或多个内容发现服务器122。内容发现服务器122可以是任何合适的服务器，用于根据本文描述的机制促进发现和/或浏览在内容递送服务器120上可访问的媒体内容项，例如，处理器、计算机、数据处理设备和/或这些设备的任何合适组合。

在一些实施方式中，以上结合图1描述的通信链路114可以包括：通信链路202、通信网络204和通信链路210；以上结合图1描述的通信链路126可以包括通信链路202和/或210、通信网络204和通信链路212；并且，以上结合图1描述的通信链路124可包括通信链路202和/或210、通信网络204和通信链路208。

图3示出了根据所公开主题的一些实施方式的、可用于实现图2中描绘的计算设备102、外部声音系统106和内容递送服务器120之一的硬件的示例300。参考图3，计算设备102可以包括可以互连的硬件处理器312、一个或多个麦克风314、存储器316、发射器/接收器318、一个或多个音频输出端口320和/或一个或多个扬声器321。在一些实施方式中，存储器316可以包括用于存储用于控制硬件处理器312的计算机程序的存储设备(诸如非暂时性计算机可读介质)。

硬件处理器312可以使用计算机程序来使用一个或多个麦克风314呈现和/或记录音频和/或与用户交互(例如，通过使用麦克风314捕获用户所说出的单词和/或通过使用一个或多个扬声器321呈现音频)以允许用户请求使用计算设备102呈现媒体内容等。还应注意，可以从任何合适的源接收通过通信链路210和/或任何其他通信链路接收的数据。在一些实施方式中，硬件处理器312可以使用例如发射器、接收器、发射器/接收器、收发器或任何其他合适的通信设备例如发射器/接收器318来通过通信链路210、通信链路114、通信链路124、通信链路126、连接110和/或任何其他通信链路来发送和接收数据。麦克风314可包括任何合适数量和/或类型的麦克风。发射器/接收器318可以包括任何合适的发射器和/或接收器，用于发送和/或接收包括音频和/或视频内容的媒体内容等。音频输出320可以包括用于将音频输出到外部声音系统(例如，外部声音系统106)的一个或多个任何合适的音频端口(和/或在一些实施方式中的视频端口)。例如、如上面结合图1所述，音频输出320可包括接受3.5mm连接器的3.5mm插孔、光纤音频端口(例如，接受TOSLINK连接器)、RCA插孔、高清多媒体接口(HDMI)端口、通用串行总线(USB)端口(例如，USB 2.x端口、USB 3.x端口等)、THUNDERBOLT端口、任何其他合适的端口和/或任何合适的端口组合。一个或多个扬声器321可包括任何合适数量和/或类型的扬声器，用于呈现音频和/或向用户提供音频反馈。在一些实施方式中，可以省略一个或多个内部扬声器321，和/或计算设备102可以将音频输出到可以输出音频的任何其他合适的设备。例如、在这样的实施方式中，计算设备可以通过有线和/或无线方式将音频输出到其所连接的另一设备，例如独立扬声器(例如，通过扬声器线连接)、具有内部扬声器的用户设备(例如，智能电话、平板电脑等)、具有连接到同一局域网的外部扬声器的计算机、计算设备102可以连接到的无线扬声器(例如，通过蓝牙连接)等。

外部声音系统106可包括可以互连的硬件处理器322、一个或多个扬声器324、存储器326以及一个或多个音频输入328。在一些实施方式中，存储器326可以包括用于存储用于控制硬件处理器322的计算机程序的存储设备(诸如非暂时性计算机可读介质)。

硬件处理器322可以使用计算机程序来呈现经由音频输入328和/或从任何其他源(例如，从可用于接收通过空中广播的音频的内部或外部天线)接收的音频。

内容递送服务器120可以包括可以互连的硬件处理器332、显示/输入设备334、存储器336和发射器/接收器338。在一些实施方式中，存储器336可以包括用于存储用于控制硬件处理器332的服务器程序的存储设备(诸如非暂时性计算机可读介质)。

硬件处理器332可以使用服务器程序与用户设备112和/或计算设备102通信，以及提供对媒体内容的访问。还应注意，可以从任何合适的源接收通过通信链路208或任何其他通信链路接收的数据。在一些实施方式中，硬件处理器332可以使用例如发射器、接收器、发射器/接收器、收发器或任何其他合适的通信设备例如发射器/接收器338来通过通信链路208或任何其他通信链路发送和接收数据。在一些实施方式中，硬件处理器332可以接收由一个或多个用户发送的命令和/或值。显示/输入设备334可以包括触摸屏、平板显示器、阴极射线管显示器、投影仪、一个或多个扬声器和/或任何其他合适的显示器和/或呈现设备，并且还可以包括计算机键盘、计算机鼠标、麦克风、触摸板、语音识别电路、触摸屏的触摸界面和/或任何其他合适的输入设备。发射器/接收器318可以包括任何合适的发射器和/或接收器，用于发送和/或接收包括音频和/或视频内容的媒体内容等。

在一些实施方式中，内容递送服务器120可以在一个服务器中实现，或者可以作为任何合适数量的服务器来分发。例如，多个服务器120可以在各种位置实现，以增加可靠性和/或提高服务器120可以与用户设备112和/或计算设备102通信的速度。

在一些实施方式中，内容发现服务器122可以使用与内容递送服务器120类似的硬件来实现，但是可以包括用于促进发现和/或浏览可从内容递送服务器120访问的媒体内容项的服务器程序。

图4示出了根据所公开主题的一些实施方式的用于控制音频输出的过程的示例400。在402处，过程400可以接收呈现音频内容的请求。在一些实施方式中，可以从任何合适的源接收呈现音频内容的请求和/或可以使用任何合适的技术或技术的组合来接收呈现音频内容的请求。例如，在一些实施方式中，过程400可以接收来自用户设备(例如，用户设备112)的呈现音频内容的请求，其具有计算设备102可以用来请求音频内容的标识信息(例如，URL)。作为另一示例，在一些实施方式中，过程400可以接收将音频内容呈现为由麦克风314记录并由硬件处理器312(和/或任何其他合适的处理器，例如，计算设备102可以与之通信以解释口头用户指令的服务器的处理器)转换成一个或多个指令的口述单词的请求。在这样的示例中，用户说出的请求可以是呈现特定音频内容的请求(例如，艺术家的姓名、作者、歌曲或书籍的标题等)、使用特定应用呈现内容的请求、呈现特定类型的内容(例如，特定类别)的请求、对内容的任何其他合适的请求和/或其任何合适的组合。作为又一示例，过程400可以接收呈现由另一设备(例如，内容递送服务器120、用户设备112等)推送到计算设备102的内容的请求。在这样的示例中，推送内容的设备可以向计算设备102发送请求以通过诸如因特网、局域网(例如，Wi-Fi)、短距离无线连接(例如，蓝牙)、任何其他合适的通信链路或任何合适的通信链路组合之类的任何合适的通信链路播放内容。

在404处，过程400可以请求和/或接收在402处被请求呈现的音频内容。在一些实施方式中，过程400可以使用任何合适的技术或技术的组合来请求和/或接收在402处被请求呈现的音频内容。例如，过程400可以使用由用户设备112提供的地址(例如，URL)来请求内容。作为另一个示例，过程400可以通过基于用户说出的一个或多个单词确定搜索查询和/或指令来请求内容，并且可以使用搜索查询和/或指令来响应于用户说出的一个或多个单词来请求内容。作为又一示例，过程400可以接收由另一设备(例如，用户设备112、内容递送服务器120等)推送的音频内容。

在406处，过程400可以确定是否连接向外部声音系统(例如，外部声音系统106)的输出。在一些实施方式中，过程400可以使用任何合适的技术或技术组合来确定是否连接向外部声音系统的输出。例如，过程400可以确定音频输出端口(例如，连接器104)是否连接到相应的插头。在更具体的示例中，过程400可以确定3.5mm插头是否插入3.5mm插孔中。在这样的示例中，过程400可以使用任何合适的技术或技术组合来确定插头插入输出端口，例如确定插头的金属触点是否存在于输出端口中。在另一个更具体的示例中，过程400可以确定在输出端口的触点处是否接收到特定信号，例如当HDMI接收器连接到HDMI端口时的端口(例如，通过HDMI电缆)时在HDMI端口的引脚18上输出并且在HDMI端口的引脚19处接收回的热插拔检测信号。作为另一示例，计算设备102可以确定是否正在通过用于将音频内容发送到外部声音系统106的无线连接输出音频内容。

如果过程400确定没有连接向外部声音系统106的输出(406处的“否”)，则过程400可以进行到414，并且使用一个或多个内部扬声器(例如，扬声器321)输出音频。以其它方式，如果过程400确定连接向外部声音系统106的输出(406处的“是”)，则过程400可以进行到408。

在408处，过程400可以通过连接将在404处接收的音频输出到连接的外部声音系统106。在一些实施方式中，过程400可以禁止通过与外部声音系统106的连接输出的音频也使用一个或多个扬声器321呈现。另外，在一些实施方式中，过程400可以在多个输出端口存在并连接到外部声音系统(其可以是相同的外部声音系统106或不同的外部声音系统)的情况下仅通过单个输出端口输出音频。或者，在一些实施方式中，过程400可以在检测到连接的任何输出端口上输出音频。在这样的实施方式中，在不同外部声音系统表现出不同延迟的情况下，可以以不同的定时输出在不同输出端口上的音频输出。

在410处，过程400可以使用麦克风314记录一个或多个音频样本，其可以用于确定在408处输出的音频是否正由外部扬声器(例如，外部声音系统106的扬声器324)呈现。在一些实施方式中，过程400可以记录任何合适数量的音频和/或任何合适的音频频率，以与408处输出的音频进行比较。例如，过程400可以使音频被连续记录，并且可以使用所记录的音频的特定部分与408处输出的音频进行比较(例如，如下面结合412所述)。作为另一示例，过程400可以以离散的时间间隔记录样本，而不记录在时间间隔之间发生的声音的信号(例如，过程400可以每四分之一秒、每五分之一秒等捕获样本)。作为又一示例，过程400可以以特定频率记录音频(例如，通过滤除或以其它方式丢弃在其他频率处的音频)。

在一些实施方式中，(例如，以确定外部扬声器是否正在播放音频、用户是否发出了语音命令等)，在410处记录的信号和为了确定用户是否已发出语音命令而记录的信号当计算设备102已经使用该信号时被删除、重写和/或以其它方式去除。另外，在一些实施方式中，可在未使用时禁用麦克风314，和/或当用户未请求记录信号时，可忽略麦克风314输出的信号(例如，不记录在存储器316中)。例如，在一些实施方式中，当使用音频输出320在输出音频内容时，可以记录来自麦克风314的信号(例如，在存储器316中)，以便确定外部声音系统106是否正在呈现音频内容。作为另一示例，当用户正在给出语音命令以便基于语音命令确定一个或多个指令时，可以(例如，在存储器316中)记录来自麦克风314的信号。在这样的示例中，可以要求用户说出特定单词或单词组合(例如，触发词或触发短语)和/或执行某个其他识别的动作，例如按下物理按钮以开始记录要构成语音命令的后续单词。在识别出触发词或触发短语之前，可以丢弃来自麦克风314的信号。

在412处，过程400可以确定在410处记录的音频是否与408处输出的音频匹配。过程400可以使用任何合适的技术或技术组合来确定所记录的音频是否与输出的音频匹配。例如，在一些实施方式中，过程400(和/或任何其他合适的过程)可以基于所记录的音频生成一个或多个音频指纹，并将所生成的指纹与在408处在输出的音频的一个或多个音频指纹进行比较。在这样的示例中，所记录的音频的指纹和/或输出的音频的指纹可以由计算设备102生成和/或可以由远程计算机(例如，远程服务器)生成。在一些实施方式中，可以在输出音频时生成输出音频的指纹。附加地或替选地，可以在输出内容之前(例如，在已知音频内容的数据库中)生成输出音频的指纹，并且可以将记录的音频的指纹与来自先前生成的指纹的指纹进行比较。

作为另一示例，在一些实施方式中，过程400(和/或任何其他合适的过程)可以将记录的音频信号与输出的音频信号进行比较以确定信号是否匹配。在更具体的示例中，过程400可以获取所记录的音频信号和输出的音频信号之间的差异。在这样的更具体的示例中，如果差异的结果低于阈值，则过程400可以确定输出信号和记录信号匹配。在一些实施方式中，由将音频信号发送到外部声音系统106引起的延迟、由外部声音系统106引起的延迟和/或在记录音频内容时引入的延迟可导致当前正在输出的音频与所记录的音频之间的比较不同，而与音频是否在被外部声音系统106呈现无关。在一些实施方式中，过程400可以将记录的音频与输出到外部声音系统106的信号的时间延迟版本进行比较。过程400可以使用任何合适的技术或技术组合确定延迟量，诸如通过匹配来自两个信号的局部最大值的模式以尝试匹配信号的定时，通过将记录的信号与具有多个不同延迟量的输出信号的版本进行比较，通过确定输出音频和记录的音频之间的延迟一次(例如，使用校准过程)并使用所确定的延迟等等。在一些实施方式中，过程400(和/或任何其他合适的过程)可以使用任何合适的技术或技术组合来补偿在记录中捕获的背景噪声，诸如通过基于已知信号(例如，输出音频信号)过滤音频信号。请注意，在大多数情况下，记录的音频将与输出音频不完全匹配(例如，由于用于播放音频的硬件、用于记录音频的硬件、环境噪音、声学或房间等)，并且因此，过程400可以确定所记录的音频是否基本上类似于输出音频信号。例如，过程400(和/或任何其他合适的过程)可以确定表示所记录的音频与输出信号匹配有多紧密的置信度值。在这样的示例中，如果置信度值大于阈值，则过程400可以确定所记录的音频与正在输出的音频匹配。

在一些实施方式中，过程400可改变在408处输出的音频信号以产生经修改的音频信号。在这样的实施方式中，过程400可以引入一个或多个信号或对于现有信号的改变，以在基本上不改变输出音频信号对大多数人类听众听起来如何的情况下增加可以识别所记录的音频信号的可能性。例如，过程400可以添加具有在能够由大多数外部扬声器输出但是在人类听觉范围之外的频率处的特定模式的信号。作为另一个示例，过程400可以以特定模式改变信号的幅度，使得听众不太可能观察到该信号，但是过程400(和/或任何其他合适的过程)可以识别该信号。在这样的实施方式中，过程400可以确定插入信号的模式和/或幅度变化是否存在于记录信号中以确定输出的音频信号是否正由外部音频系统106呈现。

如果过程400确定所记录的音频与输出的音频信号匹配(在412处的“是”)，则过程400可以返回到406，并且如果连接向外部声音系统的输出则可以继续输出音频。

以其它方式，如果过程400确定所记录的音频与输出的音频信号不匹配(412处的“否”)，则过程400可以进行到414。在414，过程400可以使用一个或多个扬声器321输出音频信号，并且可以返回406以确定是否连接向外部音频系统的输出。由于各种原因，记录的音频可能与输出的音频信号不匹配，该各种原因例如是外部声音系统断电、外部声音系统的不同输入被选择、输出未连接到外部音频系统、故障等。

在一些实施方式中，在过程400在414处使用移动扬声器321呈现音频内容的时段期间，过程400可将音频提供到音频输出320，使得如果和当外部声音系统106变得经配置以呈现音频内容时，过程400可以在408处提供音频内容并且在414处禁止一个或多个扬声器321呈现音频内容。在一些实施方式中，过程400可以在414处向音频输出320提供任何合适的音频。例如，可以提供在人类听觉范围之外的音频信号，并且过程400可以在412确定在410处记录的音频中是否存在该信号。作为另一示例，可以提供在404处接收的音频内容。在这样的示例中，在音频内容被提供给音频输出320的情况下，音频内容可以由内部扬声器和外部扬声器(例如，外部声音系统106的一个或多个扬声器324)呈现，两者之间具有延迟，并且两者都可以存在于410处记录的音频中。在一些实施方式中，过程400(和/或任何其他合适的过程)可以使用任何合适的技术或技术组合来区分由一个或多个扬声器321和扬声器324呈现的音频。例如，在一些实施方式中，过程400可以基于在扬声器321呈现音频时和在由麦克风314记录同一音频时之间的已知定时关系从记录信号中减去提供给一个或多个扬声器321的信号。作为另一个示例，多个麦克风314可以记录声音，并且可以相对于一个或多个扬声器321放置，使得来自多个麦克风的信号可以被修改和/或组合(例如，通过从另一个麦克风的输出减去一个麦克风的输出、通过反转来自一个麦克风的输出并将其添加到另一个麦克风等等)，使得移除提供给一个或多个扬声器321的信号。在这样的示例中，残余信号可以用于确定音频内容是否存在于外部声音系统106所呈现的记录信号中。

在一些实施方式中，过程400可以用于某些要呈现的音频而不用于其他要呈现的音频。例如，在一些实施方式中，总是可以仅使用一个或多个扬声器321来呈现输出以与用户交互的音频(例如，提示、查询、对查询的响应等)。

在一些实施方式中，本文描述的机制可以包括服务器端软件、服务器端硬件、客户端软件、客户端硬件或其任何合适的组合。例如，该机制可以包括用硬件处理器312、硬件处理器322和/或硬件处理器332可识别的编程语言编写的计算机程序(例如，用诸如Java、C、Objective-C、C++、C#、Javascript、Visual Basic或任何其他合适的手段的编程语言编写的程序)。作为另一示例，应用可以包含与一个或多个web页面或web页面部分相对应的代码(例如，通过任何合适的编码，诸如超文本标记语言(“HTML”)、动态超文本标记语言(“DHTML”)、可扩展标记语言(“XML”)、JavaServer Pages(“JSP”)、Active Server Pages(“ASP”)、Cold Fusion或任何其他合适的手段)。

在一些实施方式中，任何合适的计算机可读介质可用于存储用于执行本文中所描述的功能和/或过程的指令。例如，在一些实施方式中，计算机可读介质可以是暂时性的或非暂时性的。例如，非暂时性计算机可读介质可以包括介质，诸如磁介质(诸如硬盘、软盘等)、光学介质(诸如压缩盘、数字视频盘、蓝光盘等)、半导体介质(诸如闪存、电可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)等)、在传输过程中不会短暂或没有任何相似的永久性的任何合适的介质和/或任何合适的有形介质。作为另一个示例，暂时性计算机可读介质可以包括在网络上、在导线、导体、光纤、电路、在传输过程中短暂且没有任何相似的永久性的任何合适的介质和/或任何合适的无形介质中的信号。

应该理解，可以以不限于图中所示和所述的顺序和次序的任何顺序或次序执行或实施图4的过程的上述步骤。而且，图4的过程的一些上述步骤也可以在适当时或并行地基本上同时执行，以减少等待时间和处理时间。

还应注意，如本文所使用的，术语机制可以包含硬件、软件、固件或其任何合适的组合。

因此，提供了用于控制音频输出的系统、方法和介质。

尽管已经在前述说明性实施方式中描述和说明了本发明，但是应该理解，本公开仅通过示例的方式进行，并且可以在不脱离本发明的精神和范围的情况下对本发明的实现细节进行多种改变，本发明的精神和范围仅受所附权利要求的限制。可以以各种方式组合和重新布置所公开的实现的特征。

Claims

1.一种用于控制音频输出的方法，所述方法包括：

使用计算设备使得音频内容在输出端口处被呈现给外部音频输出设备，所述计算设备具有(i)用于捕获音频信息的音频输入设备，(ii)音频输出设备，(iii)用于传送音频信息的所述输出端口，所述输出端口连接至与外部音频输出设备通信音频信息的对应的连接器，以及(iv)硬件处理器；

使得所述音频输入设备在第一时间捕获由所述外部音频输出设备回放的第一音频剪辑，以确定已经通过所述输出端口传送至所述外部音频输出设备的所述音频内容是否正在由所述外部音频输出设备回放；

使用所述硬件处理器确定在所述第一时间捕获的所述第一音频剪辑是否与已经通过所述输出端口传送至所述外部音频输出设备的所述音频内容相匹配；以及

响应于确定在所述第一时间捕获的所述第一音频剪辑与已经通过所述输出端口传送至所述外部音频输出设备的所述音频内容不匹配，使用所述硬件处理器禁止所述音频内容在所述输出端口处被提供给所述外部音频输出设备并且自动地切换至使用所述计算设备的所述音频输出设备来呈现所述音频内容。

2.根据权利要求1所述的方法，还包括：

检测所述计算设备的所述输出端口被连接至与外部音频输出设备通信音频信息的对应的连接器；以及

响应于检测到所述输出端口被连接至所述对应的连接器，在所述输出端口处将所述音频内容提供给所述外部音频输出设备。

3.根据权利要求1所述的方法，还包括：

确定所述输出端口不再连接到所述对应的连接器；以及

响应于确定所述输出端口不再连接到所述对应的连接器，禁止将所述音频内容提供给所述输出端口。

4.根据权利要求1所述的方法，还包括：

在确定在所述第一时间捕获的所述第一音频剪辑与已经通过所述输出端口传送至所述外部音频输出设备的所述音频内容相匹配之后，使得所述音频内容在所述输出端口处被呈现给所述外部音频输出设备；

使得所述计算设备的所述音频输入设备在第二时间捕获第二音频剪辑，以确定已经通过所述输出端口传送至所述外部音频输出设备的所述音频内容是否继续由所述外部音频输出设备回放；

确定在所述第二时间捕获的所述第二音频剪辑与已经通过所述输出端口传送至所述外部音频输出设备的所述音频内容不匹配；以及

响应于确定在所述第二时间捕获的所述第二音频剪辑与已经通过所述输出端口传送至所述外部音频输出设备的所述音频内容不匹配，禁止所述音频内容在所述输出端口处被提供给所述外部音频输出设备并且自动地切换至使用所述计算设备的所述音频输出设备来呈现所述音频内容。

5.根据权利要求1所述的方法，其中，确定在所述第一时间捕获的所述第一音频剪辑与已经通过所述输出端口传送至所述外部音频输出设备的所述音频内容相匹配包括：

基于在所述第一时间捕获的所述第一音频剪辑生成音频指纹；

确定基于在所述第一时间捕获的所述第一音频剪辑的所述音频指纹与基于已经通过所述输出端口传送至所述外部音频输出设备的所述音频内容生成的音频指纹匹配；以及

响应于确定基于在所述第一时间捕获的所述第一音频剪辑的所述音频指纹与基于已经通过所述输出端口传送至所述外部音频输出设备的所述音频内容生成的音频指纹匹配，确定在所述第一时间捕获的所述第一音频剪辑包含已经通过所述输出端口传送至所述外部音频输出设备的所述音频内容。

6.根据权利要求1所述的方法，其中，确定在所述第一时间捕获的所述第一音频剪辑与已经通过所述输出端口传送至所述外部音频输出设备的所述音频内容匹配包括：

计算已经通过所述输出端口传送至所述外部音频输出设备的所述音频内容的一部分与在所述第一时间捕获的所述第一音频剪辑之间的差异；以及

基于所述差异确定在所述第一时间捕获的所述第一音频剪辑包含已经通过所述输出端口传送至所述外部音频输出设备的所述音频内容。

7.根据前述权利要求中1所述的方法，还包括：响应于确定在所述第一时间捕获的所述第一音频剪辑与已经通过所述输出端口传送至所述外部音频输出设备的所述音频内容相匹配，禁止使用所述计算设备的所述音频输出设备呈现所述音频内容。

8.一种用于控制音频输出的系统，所述系统包括：

计算设备，所述计算设备包括(i)用于捕获音频信息的音频输入设备，(ii)音频输出设备，(iii)用于传送音频信息的所述输出端口，所述输出端口连接至与外部音频输出设备通信音频信息的对应的连接器，以及(iv)硬件处理器，其中所述硬件处理器被配置成：

使得音频内容在输出端口处被呈现给所述外部音频输出设备；

确定在所述第一时间捕获的所述第一音频剪辑是否与已经通过所述输出端口传送至所述外部音频输出设备的所述音频内容相匹配；以及

响应于确定在所述第一时间捕获的所述第一音频剪辑与已经通过所述输出端口传送至所述外部音频输出设备的所述音频内容不匹配，禁止所述音频内容在所述输出端口处被提供给所述外部音频输出设备并且自动地切换至使用所述计算设备的所述音频输出设备来呈现所述音频内容。

9.根据权利要求8所述的系统，其中，所述硬件处理器还被配置成：

10.根据权利要求8所述的系统，其中，所述硬件处理器还被配置成：

确定所述输出端口不再连接到所述对应的连接器；以及

11.根据权利要求8所述的系统，其中，所述硬件处理器还被配置成：

12.根据权利要求8所述的系统，其中，确定在所述第一时间捕获的所述第一音频剪辑与已经通过所述输出端口传送至所述外部音频输出设备的所述音频内容相匹配包括：

13.根据权利要求8所述的系统，其中，确定在所述第一时间捕获的所述第一音频剪辑与已经通过所述输出端口传送至所述外部音频输出设备的所述音频内容匹配包括：

14.根据权利要求8所述的系统，其中所述硬件处理器还被配置成：响应于确定在所述第一时间捕获的所述第一音频剪辑与已经通过所述输出端口传送至所述外部音频输出设备的所述音频内容相匹配而禁止使用所述计算设备的所述音频输出设备呈现所述音频内容。

15.一种包含计算机可执行指令的非暂时性计算机可读介质，所述计算机可执行指令在由处理器执行时使所述处理器执行用于控制音频输出的方法，所述方法包括：

使得音频内容在计算设备的输出端口处被呈现给外部音频输出设备，其中，所述输出端口连接至向所述外部音频输出设备通信音频信息的对应的连接器；

使得所述计算设备的音频输入设备在第一时间捕获由所述外部音频输出设备回放的第一音频剪辑，以确定已经通过所述输出端口传送至所述外部音频输出设备的所述音频内容是否正在由所述外部音频输出设备回放；

响应于确定在所述第一时间捕获的所述第一音频剪辑与已经通过所述输出端口传送至所述外部音频输出设备的所述音频内容不匹配，禁止所述音频内容在所述输出端口处被提供给所述外部音频输出设备并且自动地切换至使用所述计算设备的音频输出设备来呈现所述音频内容。

16.根据权利要求15所述的非暂时性计算机可读介质，其中，所述方法还包括：

17.根据权利要求15所述的非暂时性计算机可读介质，其中，所述方法还包括：

确定所述输出端口不再连接到所述对应的连接器；以及

18.根据权利要求15所述的非暂时性计算机可读介质，其中，所述方法还包括：

19.根据权利要求15所述的非暂时性计算机可读介质，其中，确定在所述第一时间捕获的所述第一音频剪辑与已经通过所述输出端口传送至所述外部音频输出设备的所述音频内容相匹配包括：

20.根据权利要求15所述的非暂时性计算机可读介质，其中，确定在所述第一时间捕获的所述第一音频剪辑与已经通过所述输出端口传送至所述外部音频输出设备的所述音频内容匹配包括：

21.根据权利要求15所述的非暂时性计算机可读介质，其中，所述方法还包括：响应于确定在所述第一时间捕获的所述第一音频剪辑与已经通过所述输出端口传送至所述外部音频输出设备的所述音频内容相匹配，禁止使用所述计算设备的所述音频输出设备呈现所述音频内容。