CN106164845B

CN106164845B - 基于关注的动态音频水平调整

Info

Publication number: CN106164845B
Application number: CN201580018165.4A
Authority: CN
Inventors: 亚历杭德罗·乔斯·考夫曼; 李·布兰登·基利
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2014-04-01
Filing date: 2015-04-01
Publication date: 2019-07-12
Anticipated expiration: 2035-04-01
Also published as: EP3127116A1; US20150280670A1; US8874448B1; CN106164845A; EP3127116B1; US9431981B2; WO2015153752A1

Abstract

在一个示例中，技术可以包括由与用户相关联的计算设备输出第一音频数据，用于由音频输出设备以第一音量水平回放，由计算设备接收音频输入数据，并且响应于由计算设备确定音频输入数据包括与不同于用户的实体相关联的语音，由计算设备至少部分基于音频输入数据，确定是否输出第二音频数据。该方法还包括响应于确定输出第二音频数据：由计算设备确定低于第一音量水平的第二音量水平，以及由计算设备输出第二音频数据，用于由音频输出设备以第二音量水平回放。

Description

基于关注的动态音频水平调整

背景技术

在用户合理地预期社交互动会发生，诸如在街道上走、坐公共交通或在办公室中工作的情况下，用户会戴耳机来收听音乐或其他音频。然而，耳机通常使得难以听到除由耳机输出的音频外的周围噪声或其他声音。当除用户外的人正尝试引起用户的关注时，该人除了非常大声讲话、触碰用户或做可能不是社会可接受的一些其他动作外别无他法。即使该人能够引起该用户的关注，在该用户能够有效地与该人交互前，该用户必须移开耳机。

发明内容

在一个示例中，一种方法可以包括由与用户相关联的计算设备输出第一音频数据，用于由音频输出设备以第一音量水平(level)回放；由计算设备接收音频输入数据；响应于由计算设备确定音频输入数据包括与不同于用户的实体相关联的语音，由计算设备至少部分基于音频输入数据，确定是否输出第二音频数据。该方法还可以包括响应于确定输出第二音频数据，由计算设备确定低于第一音量水平的第二音量水平；以及由与用户相关联的计算设备输出第二音频数据，用于由音频输出设备以第二音量水平回放。

在另一示例中，公开了一种与用户相关联的计算系统，该计算系统包括：一个或多个处理器、以第一音量水平输出第一音频数据的音频输出设备、接收音频输入数据的音频输入设备，以及一个或多个模块。所述一个或多个模块可由一个或多个处理器操作以响应于确定音频输入数据可以包括与不同于用户的实体相关联的语音，确定是否输出第二音频数据，并且响应于确定输出第二音频数据，确定低于第一音量水平的第二音量水平，其中，所述音频输出设备被进一步配置为以第二音量水平输出第二音频数据。

在另一示例中，一种编码有指令的计算机可读存储介质，所述指令当被执行时，使与用户相关联的计算设备的至少一个处理器输出第一音频数据，用于由音频输出设备以第一音量水平回放；接收音频输入数据；响应于确定音频输入数据包括与不同于用户的实体相关联的语音，至少部分基于音频输入数据，确定是否输出第二音频数据。所述指令还可以使至少一个处理器响应于确定输出第二音频数据：确定低于第一音量水平的第二音量水平；以及输出第二音频数据，用于由音频输出设备以第二音量水平回放。

在附图和下述说明书中描述一个或多个示例的细节。从说明书和附图以及权利要求，其他特征、目的和优点将是显而易见的。

附图说明

图1是根据本公开的一个或多个方面，图示出用于基于所检测的音频输入，动态地变更音频输出的示例计算系统的概念图。

图2是根据本公开的一个或多个方面，图示出用于基于所检测的音频输入，动态地变更音频输出的示例计算设备的进一步细节的框图。

图3是根据本公开的一个或多个方面，图示出用于基于来自第二计算设备的所检测的音频输入，在第二计算设备处动态地变更音频输出的示例计算设备的框图。

图4是根据本公开的一个或多个方面，图示出用于检测谈话并且动态地变更音频数据的输出水平的示例操作的流程图。

图5是根据本公开的一个或多个方面，图示出用于确定用户的谈话习惯的示例操作的流程图。

具体实施方式

通常，本公开描述了可以使得计算设备能够响应于确定不同于计算设备的用户的实体正尝试与用户交流，动态地变更音频输出的音量水平的技术。例如，当计算设备正输出音频数据时，该计算设备可以检测说出用户的姓名，并且作为响应，可以动态地降低音频输出的音量水平或终止输出音频。在一些示例中，响应于计算设备确定谈话结束，计算设备可以恢复音频输出的音量水平或继续输出音频。

通过自动地检测实体正尝试与用户交互，本公开的技术可以使得实体能够与该实体可以如何发起与未戴耳机的用户交互类似地发起交互。用户能注意到音频输出的变化，并且认识到不同于该用户的实体正尝试引起他或她的关注。即，不是要求有人将他/她的话音音量提高到令人不舒服的水平或，以一些方式物理地向用户告知他/她的存在，本公开的技术可以使得该人引起用户的关注，并且使用正常音调和音量水平开始与用户谈话。此外，当尝试与实体谈话或其他社会交互时，本公开的技术可以不要求用户移开一对耳机或手动地变更音频输出的音量水平。

在整个本公开中，描述了仅当计算设备从用户接收允许这样做的许可时计算设备和/或计算系统才可以访问和/或分析与计算设备相关联的信息(例如执行应用、位置、速度、日历、通信、音频数据等)的示例。例如，在下述计算设备可以收集或可以利用与用户相关联的场境信息和/或与计算设备相关联的场境信息的情形中，可以为用户提供机会来提供输入以控制计算设备的程序或特征是否能收集和利用这些信息，或规定计算设备是否可以存储这些信息和/或存储多久。此外，如果允许收集任何数据，在数据由计算设备和/或计算系统存储或使用前，计算设备可以以一个或多个方式处理某些数据，使得去除个人可识别信息。例如，在获得用于计算设备的位置信息后，可以概括地理位置(诸如到市、ZIP码或州级)，使得不能确定计算设备或用户的特定位置。由此，用户有权控制如何收集有关用户的信息和计算设备如何使用该信息。

图1是根据本公开的一个或多个方面，图示出用于检测谈话音频输入，并且作为响应，变更音频输出数据的音量输出水平的示例计算设备和音频输出设备的框图。如图1的示例中所示，计算设备2可以包括输入/输出(I/O)模块4、语音模块6、数据存储器8、音频输出设备12、音频输入设备15和通信单元22。

计算设备2可以包括任意多个不同的便携式电子计算设备，诸如可穿戴计算设备(例如计算机化手表、计算机化耳机、计算机化耳麦、计算机化眼镜等)、智能手机、个人数字助理(PDA)、手提电脑、便携式游戏设备、便携式媒体播放器、电子书阅读器等。计算设备2可以包括各种输入和输出组件，包括例如一个或多个处理器、存储器、遥测模块、蜂窝网络天线、显示器、一个或多个UI元件、传感器和如可充电电池的电源。在图2中描述计算设备2的另外的细节。实现本公开的技术的计算设备2的其他示例可以包括图1中未示出的另外的组件。

通信信道(COMM.CHANNELS)28可以互连组件4、6、8、12、15和/或22互连，用于(物理地、通信地和/或可操作地)组件间通信。在一些示例中，通信信道28可以包括系统总线、网络连接、进程间通信数据结构或用于传送数据的任何其他方法。

在图1的示例中，一个或多个数据存储设备8可操作以存储用于在计算设备2的操作期间处理的信息。例如，计算设备2可以存储在计算设备2处执行期间模块4和/或6可以访问的数据。在一些示例中，数据存储设备8表示临时存储器，意指数据存储设备8的主要目的可以不是长期存储。例如，计算设备2的数据存储设备8可以是易失性存储器，意指如果断电，数据存储设备8不保持存储的内容。易失性存储器的示例包括随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)和本领域公知的其他形式的易失性存储器。

在一些示例中，数据存储设备8还包括一个或多个计算机可读存储介质。数据存储设备8可以被配置为存储比易失性存储器更大量的信息。数据存储设备8可以进一步被配置为长期存储信息。在一些示例中，数据存储设备8可以包括非易失性存储元件，意指数据存储设备8可以在上电/断电周期保持信息。非易失性存储器的示例包括磁硬盘、光盘、软盘、闪存或电编程存储器(EPROM)或电可擦可编程(EEPROM)存储器的形式。在一些示例中，诸如程序执行期间，数据存储设备8可以存储与模块4和6相关联的程序指令和/或信息(例如数据)。

在图1的示例中，一个或多个通信单元22可操作以经由一个或多个有线和/或无线网络，通过在一个或多个网络上传送和/或接收网络信号，与外部设备通信。通信单元22的示例可以包括网络接口卡(例如，诸如以太网卡)、光收发器、射频收发器、GPS接收机，或能发送和/或接收信息的任何其他类型的设备。通信单元22的其他示例可以包括近场通信(NFC)单元、蓝牙无线电、短波无线电、蜂窝数据无线电、无线网络无线电以及通用串行总线(USB)控制器。

在图1的示例中，计算设备2可以包括音频输出设备12和音频输入设备15。在一些示例中，音频输出设备12可以是扬声器或扬声器集合。在一些示例中，音频输入设备15可以是麦克风。在其他示例中，音频输入设备15可以是送话口、MIDI键盘、骨导传感器或一些其他数字仪器。音频输出设备12和音频输入设备15可以经由通信信道28，与计算设备2的其他组件，诸如模块4和6、数据存储器8或通信单元22通信。在一些示例中，音频输出设备12和/或音频输入设备15可以与计算设备2物理分离并且可以使用有线和/或无线通信机制，诸如蓝牙、WiFi、红外等，可操作地和/或通信地耦接到计算设备2。

如图1所示，计算设备2可以包括输入/输出(“I/O”)模块4和语音模块6。模块4和6可以使用软件、硬件、固件或硬件、软件和驻留在计算设备2中并且在其上执行的固件的混合，执行本文所述的操作。计算设备2可以以在底层硬件上执行的虚拟机，执行模块4和6。可以以各种方式实现模块4和6。例如，I/O模块4和语音模块6可以实现为预安装的应用或“app”。在另一示例中，模块4和6可以实现为计算设备2的操作系统的一部分。

I/O模块4可以充当计算设备2的各个组件之间的中介并且与计算设备2的各个组件交换信息。例如，计算设备2的I/O模块4可以与计算设备2的其他元件，诸如音频输入设备15、音频输出设备12或语音模块6交换数据。

语音模块6可以处理由计算系统2接收的音频输入数据。例如，语音模块6可以分析音频输入数据来确定计算设备的用户是否加入谈话或不同于计算设备的用户的实体是否正尝试引起用户关注。例如，语音模块6可以确定音频输入数据是否包括来自计算设备2的用户或不同于计算设备2的用户的实体的语音。在一些示例中，语音模块6可以进一步确定音频输入数据是否包括谈话关键字或短语，诸如“哈罗”、“嘿”、“嗨”或与用户相关联的名称(例如用户的姓名、昵称等)。

根据本公开的技术，计算设备2可以自动地确定计算设备2的用户是否加入与不同于用户的实体的谈话，或不同于用户的实体是否想要引起用户的关注，并且可以基于该确定，由计算设备2动态地调整音频的回放。如一个示例，在时刻T1，用户70正使用计算设备2(例如计算机化耳机)收听音乐。计算设备2可以输出音乐(例如，第一音频数据)，用于由音频输出设备12以第一音量水平14A回放。第一音量水平14A可以是用户70通常收听音乐的音量水平。音频数据可以存储在数据存储器8处或可以使用例如通信单元22，从一个或多个远程服务器或音乐服务流出。在任一实例中，I/O模块4可以使用通信信道28或其他有线和/或无线通信机制，将音频数据发送到音频输出设备12，用于以音量水平14A回放。

当用户70正以音量水平14B收听音乐时，用户72尝试引起用户70的关注。例如，用户72会在时刻T2说“Hey,John！(嘿，约翰！)”(语音74)。尽管描述为用户72，在其他示例中，用户72能是不同于用户70的任何实体，包括对讲系统、计算机化系统、无线电、机器人对象或输出音频的任何其他对象。在一些示例中，音量水平14B可以是与音量水平14A相同的音量水平。

音频输入设备15可以检测语音74并且将语音74的指示(例如音频输入数据)提供给I/O模块4，反过来，该I/O模块4可以将音频输入数据提供给语音模块6。例如，语音模块6可以确定音频输入数据是否包括与不同于用户70的实体相关联的语音或与用户70相关联的语音。响应于接收到音频输入数据，语音模块6可以通过例如应用语音识别技术来确定音频输入数据是否包括可识别词(例如语音)，分析音频输入数据。如果语音模块6确定音频输入数据不包括语音，计算设备2可以继续输出音频数据，用于以音量水平14B由音频输出设备12回放。

在语音模块6确定音频输入数据包括语音的示例中，(例如在时刻T3)计算设备2可以动态地调整由音频输出设备12输出的音频。作为一个示例，I/O模块4可以终止输出用于由音频输出设备12回放的音频数据。作为另一示例，I/O模块4可以降低于用于由音频输出设备12回放的音频数据相关联的音量水平(例如降低至音量水平14C)，使得音频输出设备12可以以音量水平14C输出音频数据。即，计算设备2可以响应于确定音频输入包括语音，动态地停止由音频输出设备12回放音频数据和/或降低由音频输出设备12输出的音频数据的音量水平。

如果语音模块6确定语音包含在音频输入数据中，可以将其指示从语音模块6发送到I/O模块4。在一些示例中，语音74可以使音乐的音频输出的音量降低，使得用户70以谈话的方式应答用户72，与使用户70试图在播放音乐时讲话、手动降低音量或不应答用户72完全不同。在I/O模块4接收语音模块6确定音频输入数据包括语音的肯定指示的实例中，I/O模块4可以确定是否停止输出音频数据(例如终止输出与音乐相关联的音频数据)或确定低于第一音量14B的第二音量14C。如果I/O模块4确定第二音量14C，那么I/O模块4可以经由通信单元22和通信信道28，输出第二音频数据，用于由音频输出设备12以第二音量14C回放。即，在一些实例中，I/O模块4可以响应于语音模块6确定音频输入数据包括语音，以较低音量水平(例如音量14C)输出第二音频数据(例如，音乐的另外的部分)。

在一些示例中，I/O模块4可以变更第二音频数据的其他特性。例如，I/O模块4可以变更第二音频数据内的声音的特定频率的输出。对用户，诸如用户70来说，如果音频数据不包含与语音的频率类似的频率，更容易听到来自不同于该用户的实体的语音。作为一个示例，语音模块6可以测量音频输入数据的频率以及I/O模块4可以降低与所测量的音频输入类似的频率的音量，所述频率诸如在所测量的音频输入的50Hz或100Hz内的频率。在另一示例中，语音模块6可以测量音频输入数据的频率并且I/O模块4可以终止以类似于所测量的音频输入的频率输出音频数据，所述频率诸如在所测量的音频输入的50Hz或100Hz内的频率。如另一示例，I/O模块4可以降低落在平均人类说出的话音频率范围中的所有频率的音量。如另一示例，I/O模块4可以终止以落在平均人类说出的话音频率范围中的频率输出音频数据。换句话说，在不同实例中，I/O模块4可以使用均衡器来调整音频数据的各个频率分量之间的平衡。

在一些示例中，计算设备2可以确定用户70和72可以加入谈话。响应于确定谈话结束，计算设备2可以自动地恢复输出音频数据(例如，在计算设备2响应于检测到语音，终止输出音频数据的示例中)和/或自动地调整音频输出的音量水平(例如，调整到在计算设备2检测到语音前输出音频的音量水平)。

图2是根据本公开的一个或多个方面，图示出用于基于所检测的音频输入，动态地变更音频输出的示例计算设备的进一步细节的框图。图2仅图示出计算设备2的一个具体示例，以及计算设备2的许多其他示例可以在其他实例中使用并且可以包括在示例计算设备2中包括的组件的子集或可以包括图2中未示出的另外的组件。

计算设备2可以包括为清楚起见，在图2中未示出的另外的组件。例如，计算设备2可以包括向计算设备2的组件供电的电池。类似地，图2中所示的计算设备2的组件并非在计算设备2的每一示例中均是必要的。例如，在一些配置中，计算设备2可以不包括通信单元22。

在图2的示例中，计算设备2可以包括音频输出设备12、音频输入设备15、一个或多个处理器20、一个或多个输入设备24、一个或多个通信单元22、一个或多个输出设备26和一个或多个存储设备30。计算设备2的存储设备30还可以包括I/O模块4、语音模块6和数据存储器8。语音模块6可以进一步包括语音识别模块32、语音处理模块34和用户语音模块36。通信信道28可以互连组件20、22、24、26、12、15、30、4、6、8、32、34和36的每一个，用于(物理地、通信和/或可操作地)组件间通信。在一些示例中，通信信道28可以包括系统总线、网络连接、进程间通信数据结构或用于传送数据的任何其他结构。在图2的示例中，音频输出设备12、音频输入设备15、I/O模块4和数据存储器8可以具有与图1的示例中的相应组件类似的功能性。

计算设备2的一个或多个通信单元22可以通过在一个或多个网络上传送和/或接收网络信号，经由一个或多个网络，与外部设备通信。例如，计算设备2可以使用通信单元22来在无线电网络诸如蜂窝无线电网络上传送和/或接收无线电信号。同样地，通信单元22可以在卫星网络诸如GPS网络上传送和/或接收卫星信号。通信单元22的示例可以包括网络接口卡(例如诸如以太网卡)、光收发器、射频收发器、GPS接收机或可以发送和/或接收信息的任何其他类型的设备。通信单元22的其他示例可以包括在移动设备中找到的GPS、3G、4G和无线电以及通用串行总线(USB)控制器。

计算设备2的一个或多个输入设备24可以接收输入。输入的示例可以是触觉、音频和视频输入。在一个示例中，计算设备2的输入设备24可以包括鼠标、键盘、话音应答系统、摄像机、麦克风、骨导传感器、传感器或用于检测来自人或机器的输入的任何其他类型的设备。在其他示例中，输入设备24可以是按钮、触摸屏或一些其他类型的输入。

在一些示例中，输入设备24可以是麦克风或骨导传感器，其被配置为检测来自用户、不同于用户的实体或两者的语音。例如，计算设备2能够通过输入设备24，检测来自用户(例如用户70)的语音，其中，来自该用户的语音可以是对与不同于该用户的实体相关联的语音的响应。

计算设备2的一个或多个输出设备26可以生成输出。输出的示例可以是触觉、音频和视频输出。在一个示例中，计算设备2的输出设备26可以包括存在敏感屏幕、声卡、视频图形适配卡、阴极射线管(CRT)监视器、液晶显示器(LCD)或用于对人或机器生成输出的任何其他类型的设备。输出设备26可以包括显示设备，诸如阴极射线管(CRT)监视器、液晶显示器(LCD)或用于生成可视输出的任何其他类型的设备。

作为一个示例，用户可以正使用计算设备2(例如具有内置扬声器的手提电脑)收听播客。计算设备2可以输出播客(例如第一音频数据)，用于由音频输出设备12(例如手提电脑扬声器)以第一音量水平14A回放。第一音量水平14A可以是用户70可以通常收听播客的音量水平。音频数据可以存储在数据存储器8处或可以使用例如通信单元22，从一个或多个远程服务器或音乐服务流出。在任一示例中，I/O模块4可以使用通信信道28或其他有线和/或无线通信机制，将音频数据发送到音频输出设备12，用于以第一音量水平14A回放。

当用户70正以音量水平14B收听播客时，用户72可能尝试引起用户70的关注。例如，用户72可以在时刻T2说“Hey,John！”(语音74)。尽管示为用户72，在其他示例中，用户72能是不同于用户70的任何实体，包括对讲系统、计算机化系统、无线电、机器人对象或输出音频的任何其他对象。在一些示例中，音量水平14B可以是与音量水平14A相同的音量水平。

音频输入设备15(例如麦克风)可以检测语音74(例如音频输入数据)并且将语音74的指示提供给I/O模块4，反过来，该I/O模块4可以将音频输入数据提供给语音模块6。在一些示例中，语音模块6可以包含多个不同的模块以执行如参考图1所述的功能性。例如，语音模块6可以包含语音识别模块32、语音处理模块34和用户语音模块36。在一些示例中，语音识别模块32可以从I/O模块4接收音频输入数据并且处理该音频输入数据以确定该音频输入数据是否包含语音。语音识别模块32可以通过测量用户附近的任何环境噪声并且检测所接收的音频输入数据中的尖峰信号来完成。在本公开的示例中，尖峰信号可以是指在用户附近的声波的大小急剧增加后，紧跟着用户附近的声波的大小的急剧减小。这些尖峰信号可以指示音频输入数据可以包括可以不同于通常环境噪声的声音的指示，诸如语音。例如，本示例中的用户70具有来自手提电脑扬声器的环境噪声和其他环境因素。然后，将语音74确定为尖峰信号，因为它表示在用户70附近的声波的大小急剧增加后，紧跟着用户70附近的声波的大小的急剧减小。如果语音识别模块32确定存在可以包括语音的尖峰信号，语音识别模块32可以将音频输入数据转发到语音处理模块34。

在一些示例中，语音处理模块34可以确定由语音识别模块32确定的尖峰信号是否包括语音。语音处理模块34可以确定音频输入数据中的尖峰信号是否对应于语音，并且如果是，通过应用语音识别技术来确定音频输入数据是否包括可识别的词，可以确定一个或多个词包括在音频输入数据中。在一些示例中，语音处理模块34可以确定语音是否包含谈话关键字。谈话关键字可以是通常用来开始谈话的任何词。示例能包括词或短语“hello”、“hey”、“hi”、“howdy”或“you there”，但能基于用户的文化、语言、俚语或礼节扩展这些关键字。在其他示例中，谈话关键字能是用户的名字与用户相关联的名称。在该示例中，语音处理模块34可以接收语音74中由词“Hey,John！”组成的音频输入数据，并且确定满足语音识别的谈话关键字分量。在一些示例中，语音处理模块34可以进一步确定是否以满足阈值音量值的音量，检测到来自除用户外的实体的语音。

如果语音处理模块34确定语音包含在音频输入数据中，并且将该指示从语音处理模块34发送到I/O模块4。语音74将使播客的音频输出的音量减小，允许用户70以谈话的方式应答用户72，与使用户70试图以在播放播客时讲话、手动降低音量或根本不应答用户72完全不同。当I/O模块4接收音频输入数据包含语音的肯定指示时，I/O模块4确定是否停止输出音频数据(即停止播客并且完全地终止输出音频数据)或确定比第一音量14B更低的第二音量14C。如果I/O模块4确定第二音量14C，那么I/O模块4将经由通信单元22和通信信道28，输出第二音频数据，用于由音频输出设备12以第二音量14C回放。

在一些示例中，用户语音模块36还能够处理来自用户的语音或实现机器学习算法。计算设备2可以接收第二音频输入数据，其中，第二音频输入是可以与用户70相关联的语音(例如，用户在使用计算设备2的同时，开始说话)。计算设备2使用用户语音模块36，可以测量来自用户的语音的各种语音特性。在一些示例中，语音特性可以是以下中的任何一个：音调、音量、节奏、音色、口音、发音、清晰度、头部运动、停顿、上述特性的任何一个的波动，或上述特性的任何一个的组合。计算设备2可以存储所测量的语音特性。在一些示例中，这些语音特性可以存储在数据存储器8中。计算设备2可以至少部分基于第三音频输入数据(例如用户70在使用计算设备2的同时说话的另一示例)和存储的语音特性之间的比较，确定用户是否正在讲话。例如，如果第三音频输入具有与由计算设备2存储的语音特性类似的音调、音量、节奏、音色、口音、发音、清晰度、头部运动、停顿、上述特性的任何一个的波动，或上述特性的任何一个的组合，那么计算设备2可以确定用户正在讲话。如果计算设备2确定用户70正在讲话，计算设备2可以确定是否输出第三音频数据(例如，用户目前收听的播客的其他部分)。如果计算设备2确定输出第三音频数据，计算设备可以确定比第一音量水平更低的第三音量水平。经过一段时间后，计算设备2可以使用用户语音模块36来不断地细化所存储的语音特性以更接近地匹配用户70的特定语音特性。例如，用户语音模块36可以随时间收集所存储的语音特性的不同数据点来追踪用户70的语音特性可以如何改变。通过参考多个数据点，用户语音模块36在预测用户70是否正在讲话方面会变得更准确。

用户语音模块36还可以汇集来自多个输入设备的数据以确定用户是否正在讲话。例如，用户语音模块36可以从I/O模块4接收不同于用户70的实体(例如用户72)正与用户70讲话的指示。输入设备24可以包括计算设备2上的传感器和在音频输出设备12上的耳机的内部的骨导传感器。音频输入设备15能够确定与用户72相关联的语音来自的方向。传感器还可以确定用户70或计算设备2目前面对的方向。用户语音模块36可以接收这些方向的指示并且比较它们以查看用户70(或计算设备2)是否正面对与用户72相关联的语音的起源点。如果响应于来自用户72的语音，用户70正进一步讲话，骨导传感器可以从用户70接收音频输入。骨导传感器可以将该音频输入数据发送到I/O模块4，该I/O模块4将该音频输入数据转发到用户语音模块36。用户语音模块36可以基于该音频输入数据，确定用户正在讲话。用户语音模块36确定用户70正看向跟与用户72相关联的语音来自的方向相同的方向并且确定用户70正在讲话的组合可以指示应当降低音量水平。用户语音模块36可以将该指示发送到I/O模块4，其可以降低将回放音频数据的音量水平。

一个或多个处理器20可以实现功能性和/或执行计算设备2内的指令。例如，计算设备2上的处理器20可以接收并执行由存储设备30存储的、执行I/O模块4、语音模块6、语音识别模块32、语音处理模块34和用户语音模块36的功能性的指令。由处理器20执行的这些指令可以使计算设备2在程序执行期间，将信息存储在存储设备30内。处理器20可以执行I/O模块4、语音模块6、语音识别模块32、语音处理模块34和用户语音模块36的指令来使音频输出设备12以各种音量输出音频数据。即，存储设备30中的项，诸如I/O模块4、语音模块6、语音识别模块32、语音处理模块34和用户语音模块36可以由处理器20操作来执行各种动作，包括使音频输出设备12以各种音量输出音频数据，如图1所示。

在一些示例中，输入设备24可以是按钮、触摸屏或一些其他类型的输入，其中，响应于在输入设备24处，从用户接收输入的指示，计算设备2输出第三音频数据，用于由音频输出设备12以第一音量水平(例如第一音量水平14B)回放。例如，如果降低或停止音量，用户70可以使用输入设备24来以音量水平14B，而不是音量水平14C继续收听播客。

在一些示例中，一个或多个处理器28可以执行用于输出第一音频数据的指令，用于由音频输出设备(例如音频输出设备12)以第一音量水平回放。指令可以使一个或多个处理器28接收音频输入数据。响应于确定音频输入数据包括与不同于用户的实体相关联的语音，指令可以使一个或多个处理器28至少部分基于音频输入数据，确定是否输出第二音频数据。响应于确定输出第二音频数据，指令可以使一个或多个处理器28确定低于第一音量水平的第二音量水平。指令可以使一个或多个处理器28输出第二音频数据，用于由音频输出设备以第二音量水平回放。

图3是根据本公开的一个或多个方面，图示出用于基于来自第二计算设备的所检测的音频输入，在第二计算设备处动态地变更音频输出的示例计算设备的框图。在一些示例中，根据本公开，执行本公开的技术的计算设备可以耦接到在音频输出设备处输出音频数据并且将音频输入数据提供给第一计算设备的第二计算设备。例如，计算设备48可以包括任意多个不同的便携式电子计算设备，诸如可穿戴计算设备(例如计算机化手表、计算机化耳麦、计算机化眼镜等)、智能手机、个人数字助理(PDA)、手提电脑、便携式游戏设备、便携式媒体播放器、电子书阅读器等，而计算设备40可以是耳机、耳麦，或诸如麦克风的音频输入设备和诸如扬声器的音频输出设备的一些其他组合。计算设备48可以耦接到包含音频输出设备12和音频输入设备15的计算设备40。例如，计算设备48可以是将可以是耳机的计算设备40中的音频输入设备15和音频输出设备12用作耦接到计算设备48的外围设备以分别提供语音检测和回放功能性。计算设备48和/或计算设备40可以包括各种输入和输出组件，包括例如一个或多个处理器、存储器、遥测模块、蜂窝网络天线、显示器、一个或多个UI元件、传感器和如可充电电池的电源。

计算设备40和/或计算设备48可以包括为清楚起见图3中未示出的另外的组件。例如，计算设备40和/或计算设备48可以包括向计算设备40和/或计算设备48的组件供电的电池。类似地，图3中所示的计算设备40和/或计算设备48的组件并非在计算设备40和/或计算设备48的每一示例中均是必要的。例如，在一些配置中，计算设备40和/或计算设备48可以不包括通信单元44和/或52。计算设备48的存储设备58也可以包括I/O模块54、语音模块60和数据存储器56。

计算设备40和计算设备48分别包含经由链路47相互通信的一个或多个通信单元44和52。计算设备40和48的一个或多个通信单元44和52可以通过在一个或多个网络上传送和/或接收网络信号，经由一个或多个有线和/或无线网络，与外部设备通信。例如，计算设备40和48可以使用通信单元44和52来在无线电网络诸如蜂窝无线电网络上传送和/或接收无线电信号。同样地，通信单元44和52可以在卫星网络诸如GPS网络上传送和/或接收卫星信号。通信单元44和52的示例可以包括网络接口卡(例如诸如以太网卡)、光收发器、射频收发器、GPS接收机或可以发送和/或接收信息的任何其他类型的设备。通信单元44和52的其他示例可以包括在移动设备中找到的GPS、3G、4G和无线电以及通用串行总线(USB)控制器。

通信单元44和52经由链路47相互通信。链路47可以是使计算设备40和计算设备48物理连接的硬链接连接，诸如光缆或以太网连接。链路47也可以是无线链路，诸如GPS、3G、4G和

通信信道(COMM.CHANNELS)68可以互连计算设备40中的组件42、43、44、45和/或46和计算设备48中的组件50、52、54、56、58、60、62、64和/或66，用于(物理地、通信地和/或可操作地)组件间通信。在一些示例中，通信信道68可以包括系统总线、网络连接、进程间通信数据结构或用于传送数据的任何其他方法。

在图3的示例中，一个或多个数据存储设备56可操作以存储用于在计算设备48的操作期间处理的信息。例如，计算设备48可以存储在计算设备48处执行期间模块54和/或60可以访问的数据。在一些示例中，数据存储设备56表示临时存储器，意指数据存储设备56的主要目的可以不是长期存储。例如，计算设备48的数据存储设备56可以是易失性存储器，意指如果断电，数据存储设备56不保持存储的内容。易失性存储器的示例包括随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)和本领域公知的其他形式的易失性存储器。

在一些示例中，数据存储设备56还包括一个或多个计算机可读存储介质。数据存储设备56可以被配置为存储比易失性存储器更大量的信息。数据存储设备56可以进一步被配置为长期存储信息。在一些示例中，数据存储设备56可以包括非易失性存储元件，意指数据存储设备56可以在上电/断电周期保持信息。非易失性存储器的示例包括磁硬盘、光盘、软盘、闪存或电编程存储器(EPROM)或电可擦可编程(EEPROM)存储器的形式。在一些示例中，诸如程序执行期间，数据存储设备56可以存储与模块54和56相关联的程序指令和/或信息(例如数据)。

在图3的示例中，计算设备40可以包括音频输出设备43和音频输入设备45。在一些示例中，音频输出设备43可以是扬声器或扬声器集合。在一些示例中，音频输入设备45可以是麦克风。在其他示例中，音频输入设备45可以是送话口、MIDI键盘、骨导传感器或一些其他数字仪器。音频输出设备43和音频输入设备45可以经由通信信道68、通信单元44和链路47，与计算设备48的其他组件，诸如模块54和60、数据存储器56或通信单元52通信。在一些示例中，音频输出设备43和/或音频输入设备45可以与计算设备48物理分离并且可以使用有线和/或无线通信机制，诸如蓝牙、WiFi、红外等，可操作地和/或通信地耦接到计算设备48。

如图3所示，计算设备48可以包括输入/输出(“I/O”)模块54和语音模块60。模块54和60可以使用软件、硬件、固件或硬件、软件和驻留在计算设备48中并且在其上执行的固件的混合，执行本文所述的操作。计算设备48可以以在底层硬件上执行的虚拟机，执行模块54和60。可以以各种方式实现模块54和60。例如，I/O模块54和语音模块60可以实现为预安装的应用或“app”。在另一示例中，模块54和60可以实现为计算设备48的操作系统的一部分。

I/O模块54可以充当计算设备48的各个组件之间的中介并且与计算设备48的各个组件交换信息。例如，计算设备48的I/O模块54可以与计算设备40和/或计算设备48的其他元件，诸如音频输入设备45、音频输出设备43或语音模块60交换数据。

语音模块60可以处理由计算系统48接收的音频输入数据。例如，语音模块60可以分析音频输入数据来确定计算设备的用户是否加入谈话或不同于计算设备的用户的实体是否正尝试引起用户关注。在一些示例中，语音模块60可以包含多个不同的模块(例如语音识别模块62、语音处理模块64和/或用户语音模块66)来实现参考图3所述的功能性。

计算设备40的一个或多个输入设备42可以接收输入。输入的示例可以是触觉、音频和视频输入。在一个示例中，计算设备40的输入设备42可以包括鼠标、键盘、话音应答系统、摄像机、麦克风、骨导传感器、传感器或用于检测来自人或机器的输入的任何其他类型的设备。在其他示例中，输入设备42可以是按钮、触摸屏或一些其他类型的输入。

在一些示例中，输入设备42可以是麦克风或骨导传感器，其被配置为检测来自用户、不同于用户的实体或两者的语音。例如，计算设备40能够通过输入设备42，检测来自用户(例如用户70)的语音，其中，来自该用户的语音可以是对与不同于该用户的实体相关联的语音的响应。

计算设备40的一个或多个输出设备46可以生成输出。输出的示例可以是触觉、音频和视频输出。在一个示例中，计算设备40的输出设备46可以包括存在敏感屏幕、声卡、视频图形适配卡、阴极射线管(CRT)监视器、液晶显示器(LCD)或用于对人或机器生成输出的任何其他类型的设备。输出设备46可以包括显示设备，诸如阴极射线管(CRT)监视器、液晶显示器(LCD)或用于生成可视输出的任何其他类型的设备。

图3的示例可以执行与参考图1和2公开的类似的技术。参考图1的一些方面，在下述示例中，计算设备40和计算设备48的系统可以替换图1的计算设备2。在该实施例中，计算设备48基于检测音频输入中与除用户外的实体相关联的语音，改变在计算设备40中的音频输出设备43处的音频输出的音量。在一个示例中，计算设备40可以是连接到电视机、输出与正在电视机上显示的电影相关联的音频(例如第一音频数据)的扬声器(例如输出设备46)，以及计算设备48可以是服务器。第一音量水平14A可以是用户70通常收听电影的音量水平。音频数据可以存储在数据存储器56处或可以例如经由链路47，使用通信单元44和52，从一个或多个远程服务器或音乐服务流出。在任一实例中，I/O模块54可以经由通信单元44和52、通信信道68和链路47或其他有线和/或无线通信机制，将音频数据发送到音频输出设备43，用于以第一音量水平14A回放。

当用户70正以音量水平14B收听电影时，用户72可能尝试引起用户70的关注。例如，用户72可以在时刻T2说“Hey,John！”(语音74)。尽管描述为用户72，但在其他示例中，用户72能是不同于用户70的任何实体，包括对讲系统、计算机化系统、无线电、机器人对象或输出音频的任何其他对象。在一些示例中，音量水平14B可以是与音量水平14A相同的音量水平。

音频输入设备45(例如扬声器壳体中的麦克风)可以检测语音74(例如音频输入数据)并且将语音74的指示经由通信单元44和52、通信信道68和链路47，提供给服务器上的I/O模块54，反过来，I/O模块54可以将音频输入数据提供给语音模块60。在一些示例中，语音模块60可以包含多个不同的模块以执行如参考图1所述的功能性。例如，语音模块60可以包含语音识别模块62、语音处理模块64和用户语音模块66。在一些示例中，语音识别模块62可以从I/O模块54接收音频输入数据并且处理音频输入数据以确定该音频输入数据是否包含语音。语音识别模块62可以通过测量用户附近的任何环境噪声并且检测所接收的音频输入数据中的尖峰信号来完成。在本公开的示例中，尖峰信号可以是指在用户附近的声波的大小急剧增加后，紧跟着用户附近的声波的大小的急剧减小。这些尖峰信号可以指示音频输入数据包括可以不同于通常环境噪声的声音的指示，诸如语音。例如，本示例中的用户70可以具有来自电视扬声器的环境噪声和其他环境因素。语音识别模块62可以确定语音74为尖峰信号，因为它表示在用户70附近的声波的大小急剧增加后，紧跟着用户70附近的声波的大小的急剧减小。如果语音识别模块62确定存在包括语音的尖峰信号，语音识别模块62可以将音频输入数据转发到语音处理模块64。

在一些示例中，语音处理模块64可以确定由语音识别模块62确定的尖峰信号是否包括语音。语音处理模块64可以确定音频输入数据中的尖峰信号是否对应于语音，并且如果是，通过应用语音识别技术来确定音频输入数据是否包括可识别的词，可以确定一个或多个词包括在音频输入数据中。在一些示例中，语音处理模块64可以确定语音是否包含谈话关键字。谈话关键字可以是通常用来开始谈话的任何词。示例能包括词或短语“hello”、“hey”、“hi”、“howdy”或“you there”，但能基于用户的文化、语言、俚语或礼节扩展这些关键字。在其他示例中，谈话关键字能是用户的名字或与用户相关联的名称。在该示例中，语音处理模块64可以接收语音74中，由词“Hey,John！”组成的音频输入数据，并且确定满足语音识别的谈话关键字分量。在一些示例中，语音处理模块64可以进一步确定是否以满足阈值音量值的音量，检测到来自除用户外的实体的语音。

如果语音处理模块64确定语音包含在音频输入数据中，并且将该指示从语音处理模块64发送到I/O模块54。语音74将使电影的音频输出的音量减小，允许用户70以谈话的方式应答用户72，与使用户70试图以在播放电影时讲话、手动降低音量或根本不应答用户72完全不同。当I/O模块54接收音频输入数据包含语音的肯定指示时，I/O模块54确定是否停止输出音频数据(即停止电影并且完全地终止输出音频数据)或确定比第一音量14B更低的第二音量14C。如果I/O模块54确定第二音量14C，那么I/O模块54将经由通信单元44和52、通信信道68和链路47，输出第二音频数据，用于由音频输出设备43以第二音量14C回放。

在一些示例中，用户语音模块36还能够处理来自用户的语音或实现机器学习算法。计算设备40可以接收第二音频输入数据，其中，第二音频输入是可以与用户70相关联的语音(例如，用户在使用计算设备40的同时，开始说话)。计算设备48使用用户语音模块66，可以测量来自用户的语音的各种语音特性。在一些示例中，语音特性可以是以下中的任何一个：音调、音量、节奏、音色、口音、发音、清晰度、头部运动、停顿、上述特性的任何一个的波动，或上述特性的任何一个的组合。计算设备48可以存储所测量的语音特性。在一些示例中，这些语音特性可以存储在数据存储器56中。计算设备48可以至少部分基于第三音频输入数据(例如用户70在使用计算设备40的同时说话的另一示例)和存储的语音特性之间的比较，确定用户是否正在讲话。例如，如果第三音频输入具有与由计算设备48存储的语音特性类似的音调、音量、节奏、音色、口音、发音、清晰度、头部运动、停顿、上述特性的任何一个的波动，或上述特性的任何一个的组合，那么计算设备48可以确定用户正在讲话。如果计算设备48确定用户70正在讲话，计算设备48可以确定是否输出第三音频数据(例如，用户当前正在收听的播客(podcast)的其他部分)。如果计算设备48确定输出第三音频数据，计算设备48可以确定比第一音量水平更低的第三音量水平。经过一段时间后，计算设备48可以使用用户语音模块66来不断地细化所存储的语音特性以更接近地匹配用户70的特定语音特性。例如，用户语音模块66可以随时间收集所存储的语音特性的不同数据点来追踪用户70的语音特性可以如何改变。通过参考多个数据点，用户语音模块66在预测用户70是否正在讲话方面会变得更准确。

用户语音模块66还可以汇集来自多个输入设备的数据以确定用户是否正在讲话。例如，用户语音模块66可以从I/O模块54接收不同于用户70的实体(例如用户72)正与用户70讲话的指示。输入设备42可以包括计算设备40上的传感器和在音频输出设备43上的耳机的内部的骨导传感器。音频输入设备45能够确定与用户72相关联的语音来自的方向。传感器还可以确定用户70或计算设备2目前面对的方向。用户语音模块36可以接收这些方向的指示并且比较它们以查看用户70(或计算设备2)是否正面对与用户72相关联的语音的起源点。如果响应于来自用户72的语音，用户70正进一步讲话，骨导传感器可以接收从用户70输入的音频输入。骨导传感器可以将该音频输入数据发送到I/O模块54，该I/O模块54将该音频输入数据转发到用户语音模块66。用户语音模块66可以基于该音频输入数据，确定用户正在讲话。用户语音模块66确定用户70正看向跟与用户72相关联的语音来自的方向相同的方向并且确定用户70正在讲话的组合可以指示应当降低音量水平。用户语音模块66可以将该指示发送到I/O模块54，其可以降低将回放音频数据的音量水平。

在一些示例中，输入设备42可以是按钮、触摸屏或一些其他类型的输入，其中，响应于在输入设备42处，从用户接收输入的指示，计算设备48输出第三音频数据，用于由音频输出设备43以第一音量水平(例如第一音量水平14B)回放。例如，如果降低或停止音量，用户70可以使用输入设备42来以音量水平14B，而不是音量水平14C继续收听该播客。

一个或多个处理器50可以实现功能性和/或执行计算设备40内的指令。例如，计算设备40上的处理器50可以接收由存储设备30存储的、执行I/O模块54、语音模块60、语音识别模块62、语音处理模块64和用户语音模块66的功能性的指令。由处理器50执行的这些指令可以使计算设备48在程序执行期间，将信息存储在存储设备58内。处理器50可以执行I/O模块54、语音模块60、语音识别模块62、语音处理模块64和用户语音模块66的指令来使计算设备40的音频输出设备43以各种音量输出音频数据。即，存储设备58中的项，诸如I/O模块54、语音模块60、语音识别模块62、语音处理模块64和用户语音模块66可以由处理器50操作来执行各种动作，包括使计算设备40的音频输出设备43以各种音量输出音频数据，如图3所示。

图4是根据本公开的一个或多个方面，图示出用于检测谈话并且动态地变更音频数据的输出水平的示例操作的流程图。仅为了示例目的，在图1和2的上下文内，描述图4的示例操作。

在图4的示例中，计算设备(例如计算设备2)输出第一音频数据，用于由音频输出设备(例如音频输出设备12)以第一音量水平(例如音量水平14A)回放(80)。计算设备2可以使用音频输入设备15，接收音频输入数据(例如语音74)(82)。

计算设备可以确定所接收的音频输入是否满足阈值音量值(84)。例如，计算设备可以按分贝测量所接收的音频输入并且将其与阈值分贝值比较，确定所接收的音频输入是否超出阈值分贝值的分贝水平。

计算设备可以确定所接收的音频输入数据是否包含来自不同于用户的实体(例如实体72)的语音(86)。例如，语音模块6可以包含语音识别模块32、语音处理模块34和用户语音模块36。在一些示例中，语音识别模块32可以从I/O模块4接收音频输入数据并且处理该音频输入数据以确定该音频输入数据是否包含语音。语音识别模块32可以通过测量用户周围的任何环境噪声并且检测所接收的音频输入数据中的尖峰信号来完成。在本公开的示例中，尖峰信号可以是指在用户附近的声波的大小急剧增加后，紧跟着用户附近的声波的大小的急剧减小。这些尖峰信号可以指示音频输入数据可以包括不同于通常环境噪声的声音的指示，诸如语音。例如，本示例中的用户70具有来自手提电脑扬声器的环境噪声和其他环境因素。然后，将语音74确定为尖峰信号，因为它表示在用户70附近的声波的大小急剧增加后，紧跟着用户70附近的声波的大小的急剧减小。如果语音识别模块32确定存在包括语音的尖峰信号，语音识别模块32可以将音频输入数据转发到语音处理模块34。在一些示例中，语音处理模块34可以确定由语音识别模块32确定的尖峰信号是否包括语音。语音处理模块34可以确定音频输入数据中的尖峰信号是否对应于语音，并且如果是，通过应用语音识别技术来确定音频输入数据是否包括可识别的词，可以确定一个或多个词包括在音频输入数据中。

计算设备可以确定是否使用谈话关键字(88)。例如，计算设备可以确定音频输入是否可以包括词或短语“hello”、“hey”、“hi”、“howdy”或“you there”，但能基于用户的文化、语言、俚语或礼节扩展这些关键字。在其他示例中，谈话关键字能是用户的名字或与用户相关联的名称。

对在步骤84、86或88中列出的任一确定，如果计算设备做出否定确定(84、86或88的“否”分支)，计算设备可以继续输出第一音频数据，用于由音频输出设备以第一音量水平回放。在一些示例中，可以实现这些确定的仅一些组合。在一些示例中，可以实现这些确定中的仅一个。或者，过程可以继续(84、86和/或88的“是”分支)。

计算设备可以确定是否输出第二音频数据(90)。在一些示例中，计算设备可以停止输出音频数据(90或92的“否”分支)，意指不会将音频数据发送到音频输出设备，因此，音频输出设备不发出任何声音。在其他示例中，计算设备可以确定可以比第一音量水平更低的第二音量水平(例如第二音量水平14C)并且计算设备可以输出第二音频数据，用于由音频输出设备以第二音量水平回放(90或94的“是”分支)。

在一些示例中，不管计算设备是否确定输出第二音频数据，计算设备均可以确定是否检测到用户语音(96)。计算设备可以检测来自用户的语音，其中，来自用户的语音可以是对与不同于该用户的实体相关联的语音的响应。如果检测到用户语音，计算设备可以继续执行步骤92或94(基于计算设备是否确定输出第二音频数据，96的“是”分支)。例如，如果计算设备确定输出第二音频数据，用于由音频输出设备以第二音量水平回放，在长达检测到用户语音的时间内，计算设备可以继续输出第二音频数据。

在一些示例中，计算设备可以检测用户和不同于用户的实体之间的语音模式，并且基于该语音模式，确定谈话是否正发生。在这些示例中，计算设备可以继续终止输出第二音频数据，或在长达计算设备确定谈话可能正发生的时间内，计算设备可以继续输出第二音频数据，用于由音频输出设备以第二音量水平回放。例如，计算设备可以检测用户和不同于该用户的实体之间的语音模式已经结束。计算设备可以基于该语音模式的结束，确定谈话已经结束。因此，计算设备可以输出第三音频数据，用于由音频输出设备以第一音量水平回放。参考图4，如果计算设备确定不再检测到用户语音(96的“否”分支)，计算设备可以确定谈话是否已经停止(98)。如果计算设备不再检测到不同于该用户的实体不再讲话并且该用户不再讲话，谈话已经停止。如果计算设备确定谈话还未停止(98的“否”分支)，计算设备可以继续终止输出第二音频数据或可以继续输出第二音频数据，用于由音频输出设备以第二音量水平回放。如果计算设备确定谈话已经停止(98的“是”分支)，计算设备可以输出音频数据，用于由音频输出设备以第一音量水平回放。

图5是根据本公开的一个或多个方面，图示出用于确定用户的谈话习惯的示例操作的流程图。仅为示例目的，在下文中，在图1和2的上下文内，描述图4的示例操作。

在图5的示例中，计算设备(例如计算设备2)可以输出第二音频数据，用于由音频输出设备(例如音频输出设备12)以第二音量水平(例如音量水平14C)回放(102)。这向计算设备指示用户正参与谈话。根据图5的示例，计算设备可以分析用户的讲话话音以确定用户何时参与谈话。如果计算设备能基于用户的讲话话音，而不是来自不同于用户的实体的语音，确定用户何时参与谈话，计算设备在用户可能发起谈话的实例中很有用。图5的示例为计算设备提供该功能性。

只要计算设备输出音频数据，用于以第二音量水平回放，计算设备可以接收第二音频输入数据，其中，第二音频输入是可以与用户相关联的语音(104)。计算设备使用用户语音模块36，可以测量第二音频输入数据的各个语音特性(106)。在一些示例中，语音特性可以是以下中的任何一个：音调、音量、节奏、音色、口音、发音、清晰度、头部运动、停顿、上述特性的任何一个的波动，或上述特性的任何一个的组合。计算设备存储所测量的语音特性(108)。在一些示例中，这些语音特性可以存储在数据存储器8中。

计算设备可以至少部分基于第三音频输入数据和所存储的语音特性之间的比较，确定用户是否正在讲话(110)。例如，如果第三音频输入具有与由计算设备2存储的语音特性类似的音调、音量、节奏、音色、口音、发音、清晰度、头部运动、停顿、上述特性的任何一个的波动，或上述特性的任何一个的组合，那么计算设备可以确定用户正在讲话。

如果计算设备确定用户正在讲话，计算设备可以确定是否输出第三音频数据(112)。如果计算设备确定输出第三音频数据，计算设备可以确定低于第一音量水平的第三音量水平(114)。计算设备可以输出第三音频数据，用于由音频输出设备以第三音量水平回放(116)。

在一个示例中，响应于计算设备确定音频输入可以包括与不同于用户的实体相关联的语音，计算设备可以接收第二音频输入数据，其中，该第二音频输入数据可以是与该用户相关联的语音。计算设备可以测量第二音频输入中，用户的语音特性。计算设备可以存储所测量的语音特性。计算设备可以至少部分基于第三音频输入数据与所存储的语音特性之间的比较，确定用户可能正在讲话。响应于计算设备确定第三音频输入数据可以包括与用户相关联的语音，计算设备可以至少部分基于第三音频输入数据，确定是否输出第三音频数据。响应于确定输出第三音频数据，计算设备可以确定低于第一音量水平的第三音量水平。计算设备可以输出第三音频数据，用于由音频输出设备以第三音量水平回放。

示例1：一种方法，包括：由与用户相关联的计算设备输出第一音频数据，用于由音频输出设备以第一音量水平回放；由所述计算设备接收音频输入数据；响应于由所述计算设备确定所述音频输入数据包括与不同于所述用户的实体相关联的语音，由所述计算设备至少部分基于所述音频输入数据，确定是否输出第二音频数据；以及响应于确定输出所述第二音频数据：由所述计算设备确定低于所述第一音量水平的第二音量水平；以及由所述计算设备输出所述第二音频数据，用于由所述音频输出设备以所述第二音量水平回放。

示例2：如示例1所述的方法，其中，所述音频输入数据是第一音频输入数据，所述方法进一步包括：响应于由所述计算设备至少部分基于第二音频输入数据与所存储的用户的语音特性之间的比较，确定用户正在讲话，由所述计算设备至少部分基于所述第二音频输入数据，确定是否输出第三音频数据；以及响应于确定输出所述第三音频数据；由所述计算设备确定低于所述第一音量水平的第三音量水平；以及由所述计算设备输出所述第三音频数据，用于由所述音频输出设备以第三音量水平回放。

示例3：如示例1-2的任何一个所述的方法，进一步包括：响应于由所述计算设备确定所述音频输入包括与不同于所述用户的实体相关联的语音：由所述计算设备接收第二音频输入数据，其中，所述第二音频输入数据是与所述用户相关联的语音；由所述计算设备测量所述第二音频输入中，所述用户的语音特性；以及由所述计算设备存储所测量的语音特性。

示例4：如示例1-3的任何一个所述的方法，进一步包括：响应于所述计算设备检测到与来自不同于所述用户的实体相关联的语音已经结束，由所述计算设备输出第三音频数据，用于由所述音频输出设备以第一音量水平回放。

示例5：如示例1-4的任何一个所述的方法，进一步包括：响应于接收用户输入的指示，由所述计算设备输出第三音频数据，用于由所述音频输出设备以第一音量水平回放。

示例6：如示例1-5的任何一个所述的方法，其中，所述音频输入数据的音量水平满足阈值音量水平。

示例7：如示例1-6的任何一个所述的方法，进一步包括：由所述计算设备基于所述音频输入，确定谈话正在所述用户和不同于所述用户的实体之间发生。

示例8：如示例1-7的任何一个所述的方法，进一步包括：由所述计算设备接收另外的音频数据；由所述计算设备基于所述另外的音频数据，确定所述谈话已经结束；由所述计算设备输出第三音频数据，用于由所述音频输出设备以第一音量水平回放。

示例9：如示例1-8的任何一个所述的方法，其中，确定所述音频输入数据包括与不同于所述用户的实体相关联的语音包括：确定所述音频输入数据包括谈话关键字。

示例10：如示例1-9的任何一个所述的方法，进一步包括：由所述计算设备确定所述音频输入数据源自的方向；由所述计算设备确定所述计算设备正面对的方向；以及由所述计算设备比较所述音频输入数据源自的方向与所述计算设备正面对的方向以确定所述计算设备是否正面对用于所述音频输入数据的起源点。

示例11：如示例10所述的方法，进一步包括响应于确定所述计算设备正面对用于所述音频输入数据的起源点，由所述计算设备接收第二音频输入数据；并且由计算设备确定所述第二音频输入数据是否包含与所述用户相关联的语音。

示例12：一种与用户相关联的计算系统，包括：一个或多个处理器；以第一音量水平，输出第一音频数据的音频输出设备；接收音频输入数据的音频输入设备；以及一个或多个模块，所述一个或多个模块可由所述一个或多个处理器操作以响应于确定所述音频输入数据包括与不同于所述用户的实体相关联的语音，确定是否输出第二音频数据，并且响应于确定输出第二音频数据，确定低于所述第一音量水平的第二音量水平，其中，所述音频输出设备被进一步配置为以第二音量水平输出所述第二音频数据。

示例13：如示例12所述的计算系统，其中，音频输入数据是第一音频输入数据，以及一个或多个模块被进一步由一个或多个处理器操作以：响应于至少部分基于第二音频输入数据与所存储的用户的语音特性之间的比较，确定用户正在讲话，至少部分基于所述第二音频输入数据，确定是否输出第三音频数据；以及响应于确定输出所述第三音频数据，确定低于所述第一音量水平的第三音量水平，其中，音频输出设备被进一步配置为以第三音量水平输出第三音频数据。

示例14：如示例12-13的任何一个所述的计算系统，其中，一个或多个模块被进一步由一个或多个处理器操作以：响应于由所述计算设备确定所述音频输入包括与不同于所述用户的实体相关联的语音：接收第二音频输入数据，其中，所述第二音频输入数据是与所述用户相关联的语音，以及测量所述第二音频输入中，所述用户的语音特性；以及其中，该计算系统进一步包括被配置为存储所测量的语音特性的数据存储单元。

示例15：如示例12-14的任何一个所述的计算系统，其中，一个或多个模块被进一步由一个或多个处理器操作以：基于音频输入，确定谈话正在所述用户和不同于所述用户的实体之间发生。

示例16：如示例12-15的任何一个所述的计算系统，其中，一个或多个模块被进一步由一个或多个处理器操作以：接收另外的音频数据；并且基于所述另外的音频数据，确定所述谈话已经结束，其中，所述音频输出设备被进一步配置为以第一音量水平输出第三音频数据。

示例17：如示例12-16的任何一个所述的计算系统，其中，确定所述音频输入数据包括与不同于所述用户的实体相关联的语音包括：确定所述音频输入数据包括谈话关键字。

示例18：如示例12-17的任何一个所述的计算系统，其中，所述计算系统是可穿戴计算系统。

示例19：如示例12-18的任何一个所述的计算系统，其中，一个或多个模块被进一步由一个或多个处理器操作以：确定所述音频输入数据源自的方向；确定所述计算设备正面对的方向；以及比较所述音频输入数据源自的方向与所述计算设备正面对的方向以确定所述计算设备是否正面对用于所述音频输入数据的起源点。

示例20：如示例19所述的计算系统，其中，一个或多个模块被进一步由一个或多个处理器操作以：响应于确定所述计算设备正面对用于所述音频输入数据的起源点，接收第二音频输入数据，并且确定第二音频输入数据是否包含与所述用户相关联的语音。

示例21：一种编码有指令的计算机可读存储介质，所述指令当被执行时，使与用户相关联的计算设备的至少一个处理器：输出第一音频数据，用于由音频输出设备以第一音量水平回放；接收音频输入数据；响应于确定所述音频输入数据包括与不同于所述用户的实体相关联的语音，至少部分基于所述音频输入数据，确定是否输出第二音频数据；以及响应于确定输出所述第二音频数据：确定低于所述第一音量水平的第二音量水平；以及输出所述第二音频数据，用于由所述音频输出设备以第二音量水平回放。

示例22：如示例21所述的计算机可读存储介质，其中，所述音频输入数据是第一音频输入数据，以及其中，所述指令当被执行时，进一步使至少一个处理器：响应于至少部分基于第二音频输入数据与所存储的用户的语音特性之间的比较，确定用户正在讲话，至少部分基于所述第二音频输入数据，确定是否输出第三音频数据；以及响应于确定输出所述第三音频数据：确定低于所述第一音量水平的第三音量水平；以及输出所述第三音频数据，用于由所述音频输出设备以第三音量水平回放。

示例23：如示例21-22的任何一个所述的计算机可读存储介质，其中，所述指令当被执行时，进一步使至少一个处理器：响应于确定所述音频输入包括与不同于所述用户的实体相关联的语音：接收第二音频输入数据，其中，所述第二音频输入数据是与所述用户相关联的语音；测量所述第二音频输入中，所述用户的语音特性；以及存储所测量的语音特性。

示例24：如示例21-23的任何一个所述的计算机可读存储介质，其中，所述指令当被执行时，进一步使至少一个处理器：基于所述音频输入，确定谈话正在所述用户和不同于所述用户的实体之间发生。

示例25：如示例21-24的任何一个所述的计算机可读存储介质，其中，所述指令当被执行时，进一步使至少一个处理器：接收另外的音频数据；基于所述另外的音频数据，确定所述谈话已经结束；以及输出第三音频数据，用于由所述音频输出设备以第一音量水平回放。

示例26：如示例21-25的任何一个所述的计算机可读存储介质，其中，确定所述音频输入数据包括与不同于所述用户的实体相关联的语音包括：确定所述音频输入数据包括谈话关键字。

示例27：如示例21-26的任何一个所述的计算机可读存储介质，其中，所述指令当被执行时，进一步使至少一个处理器：确定所述音频输入数据源自的方向；确定所述计算设备正面对的方向；以及比较所述音频输入数据源自的方向与所述计算设备正面对的方向以确定所述计算设备是否正面对用于所述音频输入数据的起源点。

示例28：如示例27所述的计算机可读存储介质，其中，所述指令当被执行时，进一步使至少一个处理器：响应于确定所述计算设备正面对用于所述音频输入数据的起源点，接收第二音频输入数据；并且确定所述第二音频输入数据是否包含与所述用户相关联的语音。

在一个或者多个示例中，可以在硬件、软件、固件或者它们的任何组合中实现所描述的功能。如果在软件中实现，功能可以作为一个或者多个指令或者代码存储在计算机可读介质上或者通过该计算机可读介质传送，并且由基于硬件的处理单元执行。计算机可读介质可以包括：计算机可读存储介质，其与有形介质(诸如，数据存储介质)对应；或者通信介质，其包括：促进例如根据通信协议将计算机程序从一个地方转移至另一个地方的任何介质。以这种方式，计算机可读介质大体上可以与以下相对应(1)非暂时性的有形计算机可读存储介质或者(2)通信介质(诸如，信号或者载波)。数据存储介质可以是任何可用介质，该任何可用介质可以由一个或者多个计算机或者一个或者多个处理器访问，以检索用于实现本公开所描述的技术的指令、代码、和/或数据结构。计算机程序产品可以包括计算机可读介质。

通过示例而非限制的方式，这种计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或者其它光盘存储、磁盘存储、或者其它磁盘存储设备、闪存、或者可以用于存储以指令或者数据结构的形式的期望程序代码并且计算机可以访问的任何其它介质。同样，将任何连接适当地称为计算机可读介质。例如，如果通过使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或者无线技术(诸如，红外线、无线电和微波)来从网站、服务器或者其它远程源传送指令，那么同轴电缆、光纤电缆、双绞线、DSL、或者无线技术(诸如，红外线、无线电和微波)包括在介质的定义范围内。然而，应该理解，该计算机可读存储介质和数据存储介质不包括连接、载波、信号、或者其它暂时性介质，但是反而涉及非暂时性、有形存储介质。本文所使用的磁盘和光盘包括：紧凑片(CD)、激光盘、光盘、数字多功能光盘(DVD)、软盘和蓝光盘，其中，磁盘通常以磁的方式重现数据，然而光盘利用激光来光重现数据。以上的组合还应该包括在计算机可读介质的范围内。

指令可以由一个或者多个处理器执行，所述处理器诸如，一个或者多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程序逻辑阵列(FPGA)、或者其它等效的集成或者分立逻辑电路系统。因此，所使用的术语“处理器”可以指的是任何前述结构或者适合实现所描述的技术的任何其它结构。另外，在一些方面中，可以在专用硬件和/或软件模块内提供所描述的功能。同样，可以在一个或者多个电路或者逻辑元件中完全实现技术。

可以在各种各样的设备或者装置(包括无线手机、集成电路(IC)或者IC集(例如，芯片集))中实现本公开的技术。在本公开中描述了各种组件、模块、或者单元，以强调被配置为执行所公开的技术，但是不一定需要由不同的硬件单元实现的设备的功能方面。确切地说，如上面所描述的，结合合适的软件和/或固件，各种单元可以结合在硬件单元中或者通过可互操作的硬件单元集(包括上面所描述的一个或者多个处理器)而提供。

应认识到，取决于实施例，本文所述的方法的任何一个的某些动作或事件可以按不同顺序执行，可以添加、合并或者同时省去(例如，并非所述的动作或事件对实施该方法是必要的)。此外，在某些实施例中，可以同时执行动作或事件，例如通过多线程处理、中断处理或多处理器，而不是顺序执行。

已经描述了各种示例。这些示例和其它示例在所附权利要求书的范围内。

Claims

1.一种用于输出音频数据的方法，包括：

由与用户相关联的计算设备输出第一音频数据，用于由音频输出设备以第一音量水平回放；

由所述计算设备接收音频输入数据；

响应于由所述计算设备确定所述音频输入数据包括与不同于所述用户的实体相关联的语音并且所述语音包括谈话关键字，由所述计算设备至少部分基于所述音频输入数据，确定是否输出第二音频数据；以及

响应于确定输出所述第二音频数据：

由所述计算设备确定低于所述第一音量水平的第二音量水平；以及

由所述计算设备输出所述第二音频数据，用于由所述音频输出设备以所述第二音量水平回放。

2.如权利要求1所述的方法，其中，所述音频输入数据是第一音频输入数据，所述方法进一步包括：

响应于由所述计算设备至少部分基于第二音频输入数据与所存储的所述用户的语音特性之间的比较，确定用户正在讲话，由所述计算设备至少部分基于所述第二音频输入数据，确定是否输出第三音频数据；以及

响应于确定输出所述第三音频数据：

由所述计算设备确定低于所述第一音量水平的第三音量水平；以及

由所述计算设备输出所述第三音频数据，用于由所述音频输出设备以所述第三音量水平回放。

3.如权利要求2所述的方法，进一步包括：响应于由所述计算设备确定所述音频输入数据包括与不同于所述用户的实体相关联的语音：

由所述计算设备接收所述第二音频输入数据，其中，所述第二音频输入数据是与所述用户相关联的语音；

由所述计算设备测量所述第二音频输入中，所述用户的语音特性；以及

由所述计算设备存储所测量的语音特性。

4.如权利要求1至3中的任何一项所述的方法，进一步包括：响应于所述计算设备检测到与来自不同于所述用户的所述实体相关联的语音已经结束，由所述计算设备输出第三音频数据，用于由所述音频输出设备以所述第一音量水平回放。

5.如权利要求1至3中的任何一项所述的方法，进一步包括：响应于接收用户输入的指示，由所述计算设备输出第三音频数据，用于由所述音频输出设备以所述第一音量水平回放。

6.如权利要求1至3中的任何一项所述的方法，其中，所述音频输入数据的音量水平满足阈值音量水平。

7.如权利要求1至3中的任何一项所述的方法，进一步包括：

由所述计算设备基于包括与不同于所述用户的实体相关联的语音并且包括谈话关键字的所述音频输入，确定谈话正在所述用户和不同于所述用户的所述实体之间发生。

8.如权利要求7所述的方法，进一步包括：

由所述计算设备接收另外的音频数据；

由所述计算设备基于所述另外的音频数据，确定所述谈话已经结束；以及

由所述计算设备输出第三音频数据，用于由所述音频输出设备以所述第一音量水平回放。

9.如权利要求1所述的方法，进一步包括：

由所述计算设备确定所述音频输入数据所源自的方向；

由所述计算设备确定所述计算设备正面对的方向；以及

由所述计算设备比较所述音频输入数据所源自的所述方向与所述计算设备正面对的所述方向以确定所述计算设备是否正面对用于所述音频输入数据的起源点。

10.如权利要求9所述的方法，进一步包括：

由所述计算设备接收第二音频输入数据；

响应于确定所述计算设备正面对用于所述音频输入数据的所述起源点，由所述计算设备确定所述第二音频输入数据是否包含与所述用户相关联的语音；以及

响应于确定所述计算设备未面对用于所述音频输入数据的所述起源点，避免由所述计算设备确定所述第二音频输入数据是否包含与所述用户相关联的语音。

11.一种与用户相关联的计算系统，包括：

一个或多个处理器；

以第一音量水平输出第一音频数据的音频输出设备；

接收音频输入数据的音频输入设备；以及

一个或多个模块，所述一个或多个模块可由所述一个或多个处理器操作以响应于确定所述音频输入数据包括与不同于所述用户的实体相关联的语音并且所述语音包括谈话关键字，确定是否输出第二音频数据，并且响应于确定输出所述第二音频数据，确定低于所述第一音量水平的第二音量水平，

其中，所述音频输出设备被进一步配置为以所述第二音量水平输出所述第二音频数据。

12.如权利要求11所述的计算系统，其中，所述一个或多个模块被进一步由所述一个或多个处理器操作以执行权利要求2至10中的任何一项所述的方法。