CN106031138B

CN106031138B - 环境感测智能设备

Info

Publication number: CN106031138B
Application number: CN201580009537.7A
Authority: CN
Inventors: S.康杰蒂; A.拉梅什
Original assignee: Crown Audio Inc
Current assignee: Crown Audio Inc
Priority date: 2014-02-20
Filing date: 2015-02-20
Publication date: 2019-11-29
Anticipated expiration: 2035-02-20
Also published as: WO2015127194A1; US9847096B2; US20170053666A1; EP3108646A4; EP3108646B1; EP3108646A1; CN106031138A

Abstract

一种音频播放装置可以一定的音量级驱动音频再现装置。音频捕捉装置可将声波转换成音频输入。环境感测装置可基于所述音频输入检测所述音频播放装置的用户周围的环境条件，所述环境条件包括指示包括在所述音频输入中的背景噪声级的响度估计和指示所述音频输入中存在语音的音频内容分类。所述环境感测装置还可根据所述环境条件确定用以改变由所述音频播放装置提供的所述音量级的播放动作，以及根据所述播放动作将对所述音量级的调整提供至所述音频播放装置。

Description

环境感测智能设备

相关申请的交叉引用

本申请要求于2014年2月20日提交的美国临时申请序列号61/942,291的权益，所述临时申请的公开内容特此以引用的方式整体并入本文中。

技术领域

本文所公开的方面大体上涉及环境感测智能头戴式耳机和移动装置。

背景技术

随着便携式音乐播放器和移动电话的日益普及，公共环境和状况中的头戴式耳机使用也相应地增加。然而，这种装置的用户可能会发现难以在了解其所处的公共环境的同时收听音频。

发明内容

在一个或多个实施方案中，系统包括：音频播放装置，其被配置来以一定的音量级驱动音频再现装置；音频捕捉装置，其被配置来将声波转换成音频输入；以及环境感测装置，其被配置来基于所述音频输入检测音频播放装置的用户周围的环境条件，所述环境条件包括：指示包括在所述音频输入中的背景噪声级的响度估计和指示所述音频输入中存在语音的音频内容分类，根据所述环境条件确定用以改变由所述音频播放装置提供的音量级的播放动作，以及根据所述播放动作将对所述音量级的调整提供至所述音频播放装置。

在一个或多个实施方案中，方法包括基于来自音频捕捉装置的音频输入检测以一定的音量级驱动音频再现装置的音频播放装置的用户周围的环境条件，所述环境条件包括：指示包括在所述音频输入中的背景噪声级的响度估计和指示所述音频输入中存在语音的音频内容分类；根据所述环境条件确定用以改变由所述音频播放装置提供的音量级的播放动作；以及根据所述播放动作将对所述音量级的调整提供至所述音频播放装置。

在一个或多个实施方案中，非暂时性计算机可读介质包括计算机指令，当所述计算机指令被音频播放装置的处理器执行时致使所述音频播放装置执行以下操作，包括：基于来自音频捕捉装置的音频输入检测以一定的音量级驱动音频再现装置的音频播放装置的用户周围的环境条件，所述环境条件包括：指示包括在所述音频输入中的背景噪声级的响度估计和指示所述音频输入中存在语音的音频内容分类；根据所述环境条件确定用以改变由所述音频播放装置提供的音量级的播放动作；以及根据所述播放动作提供对所述音量级的调整。

附图说明

所附权利要求书中具体指出了本公开的实施方案。然而，通过结合附图参考以下详细描述，各个实施方案的其它特征将变得更明显，并且将会被更好的理解，在所述附图中：

图1A是根据一个实施方案的包括音频装置和音频再现装置的音频播放设备，所述音频再现装置具有一体式音频捕捉装置；

图1B是根据另一实施方案的另一音频播放设备，其包括具有一体式音频捕捉装置的移动装置和音频再现装置；

图2是包括智能环境感测设备的音频装置的更具体的实现方式，所述智能环境感测设备用于基于智能环境感测执行音频调整；

图3A至图3E是被智能环境感测设备利用的示例性数据要素值的框图；

图4是使用智能环境感测设备执行智能环境感测的方法；并且

图5是基于环境条件执行音频调整的方法。

具体实施方式

本文中视需要提供本公开的具体实施方案；然而，应理解的是，所公开的实施方案仅是对可能体现为各种形式和替代形式的公开内容的说明。附图不一定按比例绘制；一些特征可能会被放大或最小化以展示特定部件的细节。因此，本文所公开的具体结构细节和功能细节不应被解释为具有限制性，而是仅仅作为教导本领域技术人员来多方面地采用本发明的代表性基础。

头戴式耳机的用户可能无法听到试图引起其注意的人的声音。如果用户知悉有人正在与其讲话，用户可能需要移除其头戴式耳机来进行回应。此外，佩戴头戴式耳机在公共场合行走或驾驶时，用户可能无法听到指示进入不安全状况的声音，诸如迎面而来的车流的喇叭声。

结合媒体播放使用的各种音频装置，诸如头戴式耳机、便携式音频装置或其它合适的装置，可能包括用于实现智能环境感测设备的硬件和软件。头戴式耳机或其它音频装置可通过基于感测头戴式耳机用户的环境对用户所收听的音频的音量执行音频调整来执行或进行智能环境感测。在一个示例中，音频装置可识别需要用户的注意力的条件，并且可通过对头戴式耳机音量进行静音或降低头戴式耳机音量来通知用户。在另一示例中，音频装置可控制头戴式耳机音量，以确保来自头戴式耳机的声音输出的可听度高于当前环境噪声。音频装置还可被配置来对来自用户的声音命令做出响应。

图1A是根据一个实施方案的包括音频装置102和音频再现装置104的音频播放设备100A，所述音频再现装置104具有一体式音频捕捉装置106。图1B是根据另一实施方案的另一音频播放设备100B，其包括具有一体式音频捕捉装置106的音频装置102和音频再现装置104。

音频装置102可被配置来提供音频内容至音频装置102的用户以用于消费。音频装置102可包括各种类型的装置，诸如便携式音乐播放器、光盘(CD)播放器、录音带播放器、个人计算机、便携式计算机、个人数字助理(PDA)、移动电话、平板装置或基于微处理器的娱乐装置。音频内容可包括来自各种源的音乐或谈话，诸如解码自接收的无线电传输的音频、接收的作为电话交谈的一部分的音频内容、存储在音频装置102上或存储在提供至音频装置102的存储介质(例如，光盘、磁带、存储卡等)上的音频内容。音频装置102还可被配置来提供放大电路(未图示)，以允许音频装置102使用包括音频内容的信号驱动音频再现装置104。音频装置102还可包括控制件，所述控制件用于使得用户能够选择将由放大电路提供的用以驱动音频再现装置104的音量级。

音频捕捉装置106可以是被配置来将声波转换成供设备100A使用的电信号的麦克风或其它合适的装置。在一些情况下，音频捕捉装置106可整合到如在设备100A中示出的音频再现装置104中，而在其它情况下，音频捕捉装置106可整合到如在结合图1B所示的设备100B中示出的音频装置102中。在其它情况下，音频捕捉装置106可与音频装置102和音频再现装置104二者分开。如果设备100A识别出音频捕捉装置106的型号或类型(例如，基于其包括在已知音频装置102或音频再现装置104中)，设备100可能够基于先前执行的音频捕捉装置106的特征化来识别声压级以与从音频捕捉装置106接收的电信号的特定电平相关联。

音频装置102包括用于执行软件的任何数量的处理器，其中所述软件(或程序)可存储在音频装置102可访问的一个或多个存储器装置(未图示)上。设备100A(或100B)大体上包括智能环境感测装置108，所述智能环境感测装置108包括用于执行如结合环境智能感测公开的任何功能或操作的硬件和软件的任何组合。例如，应认识到，智能环境感测装置108可接收应用(或应用程序)，以及使用一个或多个处理器来执行所述应用程序以执行如本文结合智能环境感测装置108提及的各种功能。应用程序可存储在音频装置102的存储器上(例如，作为软件、固件等)。在一些情况下，可提供智能环境感测装置108作为音频装置102附带的本地应用，而在其它情况下，可从应用商店下载应用程序至音频装置102。一般而言，智能环境感测装置108可被配置来致使音频装置102执行与音频装置102的用户周围的环境条件的检测相关的各种操作，以及确定音频再现装置104上用以改变提供至用户的音频的音量的音频调整。应认识到，智能环境感测装置108可整合到音频再现装置104中，整合到独立装置中，或整合到音频装置102、音频再现装置104和其它装置中的两个或两个以上的组合中。智能环境感测装置108的操作的更多方面在下面详细讨论的图2至图4中进行说明。

图2是包括智能环境感测装置108的音频装置102的更具体的实现方式，所述智能环境感测装置108用于基于智能环境感测执行音频调整。如图所示，智能环境感测装置108包括环境感测单元202、语音模式匹配单元204和决策单元210。音频捕捉装置106被配置来提供音频输入212至环境感测单元202。位置输入传感器214被配置来提供位置数据226至决策单元210。压力输入传感器被配置来提供压力数据230至决策单元210。决策单元210可被配置来基于音频输入212、位置数据226、位置输入传感器214和压力数据230提供播放动作234至音频装置102的音频播放装置218。

环境感测单元202可从音频捕捉装置106接收音频输入212。基于所述音频输入，环境感测单元202可执行响度分析，以确定指示包括在音频输入212中的背景噪声级的响度估计220。环境感测单元202还可执行语音分析，以确定指示接收的音频输入212中是否存在语音的音频内容分类222。

为了确定响度估计220，环境感测单元202可针对音频输入212的样本确定平均绝对振幅，例如使用根据以下方程式的低通滤波器：y(n)＝β*abs(x(n))+(i-β)*y(n)，例如其中β＝0.985。环境感测单元202可将平均振幅与预确定的响度阈值进行比较，例如进行校准或以其它方式与音频捕捉装置106相关联，以确定音频输入212是否超出预定的响度阈值。如果环境感测单元202知道音频捕捉装置106的型号或类型(例如，基于其包括在已知音频装置102或音频再现装置104中)，环境感测单元202可能够基于先前执行的音频捕捉装置106的特征化来识别声压级以与音频输入212相关联。

环境感测单元202可维持对预定义时间段(例如，十分之一秒、一秒、三秒等)上音频输入212的超出阈值的样本数量的计数。参考图3A，如果计数超出阈值，那么响度条件可被视为是相对较高的响度220-A。如果检测到声音但是响度低于阈值，那么响度条件可被视为是相对较低的响度220-B。如果基本上未检测到声音，那么响度条件可被视为是无声220-C。

继续参考图2，为了执行音频内容分类，环境感测单元202可将音频输入212传递通过例如传递频率在175Hz与495Hz之间的带通滤波器以选择语音的第一共振峰。可对应于预定样本数量(例如，20毫秒数据，不考虑取样率)估计一个时间段内的信号音调。该时间段可称作估计周期。一种可能性是，环境感测单元202可使用平均幅度差函数(AMDF)来估计音调，如下面更为详细地讨论。如果环境感测单元202确定在语音的第一共振峰的预期范围内的音调包括在样本中，包括所述音调的帧可被指示为包括语音。如果环境感测单元202确定估计周期内至少有阈值量的样本包括指示语音的音调，那么参考图3B，环境感测单元202可确定音频输入212包括语音222-A。如果环境感测单元202确定估计周期内有较低阈值量的样本包括指示语音的音调，那么环境感测单元202可确定音频输入212包括语音和噪声222-C。否则，环境感测单元202可确定音频输入212不包括语音222-B。

基于响度估计220和音频内容分类222，环境感测单元202可被配置来基于音频输入212提供环境条件224的指示。参考图3C，环境条件224可包括例如：(i)安静环境中的语音条件224-A，其中检测出的语音具有相对安静的背景噪声；(ii)噪声环境中的语音条件224-B，其中检测出的语音具有相对较响的背景噪声(或者其中仅检测出较低阈值量的语音)；(iii)未检测出语音但是存在背景噪声的噪声条件224-C；以及(iv)安静条件224-D，其中未检测出语音且具有相对安静的背景噪声。(应注意，如果音频输入212中基本上无噪声，那么响度估计220可在无需执行或检查音频内容分类结果的情况下得出以下结论：环境条件224为无声条件224-D。)继续参考图2，环境条件224的指示可提供至语音模式匹配单元204和决策单元210。

如果检测出语音(例如，安静环境中的语音条件224-A或噪声环境中的语音条件224-B)，那么语音模式匹配单元204可执行音频输入212的语音识别(或报告所述语音识别的结果)。更具体地说，语音模式匹配单元204可包括语音转文字单元206和匹配单元208。语音转文字单元206可被配置来将包括在音频输入212中的语音转换为文字。在一个示例中，语音转文字单元206可使用实现为由位于加利福尼亚州山景城的Google Inc.发售的Android操作系统的部件的语音转文字引擎来实现语音转文字转换。匹配单元208可被配置来将识别的语音与用户自定义文字进行比较。用户自定义文字可包括姓名、昵称或短语的列表，以使得当一个或多个匹配时，匹配单元208可确定扬声器正在试图与用户通话。如果发现匹配，匹配单元208被配置来将所述匹配通知给决策单元210。匹配单元208还可被配置来提供用户界面，用户可通过所述用户界面对将由语音模式匹配单元204匹配的姓名或其它相关语音的列表进行配置。例如，语音模式匹配单元204可试图将音频输入212与用户的姓名(或可用于得到用户注意的其它相关语音)进行匹配，以确定是否正在呼叫用户或以其它方式警示用户。语音模式匹配单元204可将对音频输入212执行的语音匹配的状态通知给决策单元210。

决策单元210还可接收指示音频装置102的移动的输入。一种可能性是，决策单元210可从位置输入传感器214接收呈加速度计信息形式的位置数据226(例如，加速度计位置数据226)，并且可基于加速度计位置数据226确定指示用户是否保持在相对固定的位置或用户是否以慢速率或快速率行走的位置估计228。另一种可能性是，决策单元210可接收呈GPS信息(例如，GPS位置数据226)(或其它合适的位置数据226)形式的位置数据226来代替或补充加速度计位置数据226，并且决策单元210可利用GPS位置数据226(或其它位置数据226)来确定音频装置102是静止的或是移动的。参考图3D，位置估计228可包括例如：(i)静止位置估计228-A，其中装置似乎不移动；以及(ii)改变位置估计228-B，其中装置似乎是移动的。还可提供改变位置估计228-B的更多分级，诸如(iii)低速度位置估计228-C，其中装置以诸如行走速度的相对较慢的速率移动，以及(iv)高速度位置估计228-D，其中装置以相对较快的速度移动，诸如指示用户在车辆中而不是步行的速度。

如上面所提及，决策单元210还可从压力输入传感器216接收压力数据230。决策单元210可使用压力数据230来执行压力估计232，以识别外部条件的突然改变，例如由于用户丢下压力输入传感器216(例如，丢下包括压力输入传感器216的音乐播放器装置)或用户以其它方式做出指示用户被袭击或伤害的突然移动。参考图3E，压力估计232可包括例如(i)正常压力232-A，其中装置似乎尚未被丢下，以及(ii)突然改变压力232-B，其中装置似乎已经遭到突然移动。

基于所述输入，决策单元210可确定用以发送至音频播放装置218的播放动作234，其中所述音频调整可改变用户经由音频再现装置104收听的音频的音量。表1说明基于前面提及的至决策单元210的输入的播放动作234的示例性映射。

表1

应注意，表1的映射仅为示例性的，并且可利用播放动作234的替代映射。此外，在一些情况下，用户、环境感测单元202的制造商或音频装置102的制造商中的一个或多个可根据用户或制造商偏好自定义播放动作234的映射。一种可能性是，智能环境感测装置108可向使用音频装置102的用户提供用户界面，以促进播放动作234的映射的配置。

在一些示例中，决策单元210还可基于额外标准确定对播放动作234的超控。例如，如果完成了语音模式匹配，或者如果压力传感器指示移动的突然改变，可超控播放动作234来对音频进行静音。这些超控条件也可自定义。

图4是使用智能环境感测装置108执行智能环境感测的方法400。方法400可例如由智能环境感测装置108执行，所述智能环境感测装置108由音频装置102、音频再现装置104和一个或多个其它计算装置中的一个或多个执行。

在框402中，智能环境感测装置108接收音频输入212。例如，智能环境感测装置108可从包括在音频装置102中的音频捕捉装置106接收音频输入212。举其它示例来说，智能环境感测装置108可从包括在音频再现装置104中的音频捕捉装置106接收音频输入212，或者从与音频装置102和音频再现装置104二者分开的音频捕捉装置106接收音频输入212。

在框404中，智能环境感测装置108对音频输入212进行过滤。例如，智能环境感测装置108的环境感测单元202可将音频输入212过滤为对于语音的第一共振峰的检测有用的频率范围。

在框406处，智能环境感测装置108添加当前输入样本至环形缓冲器。环形缓冲器可包括例如固定数量的最新接收的输入样本(例如，足以容纳20毫秒的数据的空间，不考虑取样率)，以使得当前输入样本替换环形缓冲器中的最旧样本。

在框408处，智能环境感测装置108识别环形缓冲器中具有最大音调周期的数据样本。例如，如果目标是在96Hz至400Hz范围内的音调，可根据所使用的取样频率计算音调周期。

在框410处，智能环境感测装置108执行平均幅度差函数(AMDF)帧间求差。AMDF是用于估计有声语音的音调周期的技术。在AMDF中，延迟的语音与原始语音之间形成差异信号，以使得对于每一延迟，采用所述差异的绝对量。例如，智能环境感测装置108可执行最新输入样本与环形缓冲器的其它输入样本的每一个之间的差异。

在框412处，智能环境感测装置108找出最小值的点。例如，基于最新输入样本与环形缓冲器的其它输入样本的每一个之间的差异，智能环境感测装置108可识别对应于有声声音的音调周期的延迟处的相对零点。

在框414处，智能环境感测装置108根据最小值执行音调估计。例如，基于识别的相对零点，智能环境感测装置108可估计在音频输入212中捕捉的第一语音共振峰的音调。

在决策点416处，智能环境感测装置108确定是否已经到达估计周期的末端。例如，智能环境感测装置108可确定预定义的估计时间周期是否已经过去。估计周期可为预定义的时间量，一些可能性诸如十分之一秒、一秒或三秒。如果估计时间周期已经过去，重新设定估计周期并且控制传到决策点418。否则控制传到框402。

在决策点418处，智能环境感测装置108确定包括第一共振峰候选的总音调样本是否超出分析样本的第一预定阈值。第一预定阈值可能是例如跨分析周期中的预定数量的估计周期的样本的约65％。如果是这样，控制传到框420。否则，控制传到决策点422。

在框420处，智能环境感测装置108将环境条件224设置为噪声环境中的语音条件224-B。在框420之后，控制传到框402。

在决策点422处，智能环境感测装置108确定包括第一共振峰候选的总音调样本是否未超出分析样本的第二预定阈值。第二预定阈值可能低于第一预定阈值，并且可能为例如约40％。如果是这样，控制传到框424。否则，控制传到框426。

在框424处，智能环境感测装置108将环境条件224设置为噪声条件224-C。在框424之后，控制传到框402。

在框426处，智能环境感测装置108将环境条件224设置为安静环境中的语音224-A。在框426之后，控制传到框402。

在框428处，并且还基于框404的音频输入212，智能环境感测装置108执行平均振幅估计。例如，智能环境感测装置108的环境感测单元202可确定平均绝对振幅，例如使用根据以下方程式的低通滤波器：y(n)＝β*abs(x(n))+(i-β)*y(n)。(应注意，在一些示例中，可代替地利用预过滤的音频输入212。)

在决策点430处，智能环境感测装置108确定是否到达振幅估计分析周期的末端。例如，环境感测单元202可执行在预定义的时间周期上平均的振幅分析，所述时间周期诸如十分之一秒、一秒或三秒。环境感测单元202还可维持对预定义时间段上音频输入212的超出阈值的样本数量的计数。如果估计的周期已经结束，控制传到决策点432。否则，控制传到框402以接收额外音频样本。

在决策点432处，智能环境感测装置108确定计数是否超出分析阈值。如果音频输入212的样本数量的计数超出阈值，那么响度条件可被视为是相对较高的响度220-A，并且控制传到框434。否则，控制传到决策点436。

在框434处，智能环境感测装置108将响度估计220设置为高响度220-A。在框440之后，控制传到框402。

在决策点436处，智能环境感测装置108确定计数是否为零。如果是这样，那么基本上未接收到声音，并且控制传到框438。否则，控制传到框440。

在框438处，智能环境感测装置108将响度估计220设置为无声220-C。在框440之后，控制传到框402。

在框440处，智能环境感测装置108将响度估计220设置为低响度220-B。在框440之后，控制传到框402。

方法400的变化是可能的。一种可能性是，可利用用于语音检测的其它技术来补充或代替AMDF，所述技术诸如自相关或线性预测编码。

图5是基于环境条件执行音频调整的方法500。与方法400一样，方法500可例如由智能环境感测装置108执行，所述智能环境感测装置108由音频装置102、音频再现装置104和一个或多个其它计算装置中的一个或多个执行。

在框502处，智能环境感测装置108检测环境条件。例如，智能环境感测装置108的环境感测单元202可利用诸如方法400的方法来执行响度估计220和音频内容分类222。举另一示例来说，智能环境感测装置108可接收指示装置移动的输入，诸如来自位置输入传感器214的加速度计位置数据226或来自GPS接收器的GPS位置数据226。举又一示例来说，智能环境感测装置108可例如从压力输入传感器216接收压力数据230，以识别外部条件的突然改变，例如由于用户丢下压力输入传感器216。

在决策点504处，智能环境感测装置108确定是否应将音频调整提供至音频播放装置218。例如，智能环境感测装置108的决策单元210可利用诸如表1中所描述的播放动作234的映射来基于以下信息识别音频调整：输入至决策单元210的检测的环境条件224、位置数据226和压力数据230。音频调整可包括用以改变由音频播放装置218提供的以及用户经由音频再现装置104所收听的音频音量的播放动作234中的一个或多个。示例性播放动作234可包括升高音量、降低音量或对用户经由音频再现装置104所收听的音频进行静音。如果智能环境感测装置108确定执行音频调整，控制传到框506。否则，控制传到框502以继续检测环境条件。

在框506处，智能环境感测装置108执行所指示的音频调整。例如，智能环境感测装置108可提供播放动作234至音频播放装置218。在框506之后，控制传到框502。

虽然本文描述了智能环境感测装置108的示例性模块化，但是还应注意，单元202至单元210可并入更少的单元中，或者可组合为几个单元或甚至一个单元。

虽然上面描述了示例性实施方案，但是这些实施方案并非意在描述本发明的所有可能的形式。事实上，本说明书中所使用的词语为说明性词语而不是限制性词语，并且应理解，可在不脱离本发明的精神和范围的情况下做出各种改变。另外，各种正在实现的实施方案的特征可进行组合，以形成本发明的更多实施方案。

本文所描述的计算装置大体上包括计算机可执行指令，其中所述指令可由诸如上面所列出的一个或多个计算装置执行。可根据使用多种编程语言和/或技术创建的计算机程序来编译或翻译计算机可执行指令，所述多种编程语言和/或技术包括但不限于以下的单一形式或组合形式：Java^TM、C、C++、Visual Basic、Java Script、Perl等。一般而言，处理器(例如，微处理器)从(例如)存储器、计算机可读介质等接收指令，并且执行这些指令，从而执行一个或多个方法，包括本文所描述的方法中的一个或多个。这种指令和其它数据可使用多种计算机可读介质进行存储和传输。

对于本文所描述的过程、系统、方法、启发法等，应理解，虽然已经将这种过程等的步骤描述成根据特定有序序列发生，但是这种过程可利用所描述的以本文所描述的顺序以外的顺序执行的步骤进行实践。还应理解，某些步骤可同时执行，可增加其它步骤，或可将本文所描述的某些步骤省略。换句话说，本文对过程的描述是出于说明某些实施方案的目的提供的，并且不应被解释为对权利要求的限制。

Claims

1.一种用于音频播放的系统，包括：

音频播放装置，其被配置来以一定的音量级驱动音频再现装置；

音频捕捉装置，其被配置来将声波转换成音频输入；以及

环境感测装置，其被配置来基于所述音频输入检测所述音频播放装置的用户周围的环境条件，所述环境条件包括指示包括在所述音频输入中的背景噪声级的响度估计和指示所述音频输入中存在语音的音频内容分类，

根据所述环境条件确定用以改变由所述音频播放装置提供的所述音量级的播放动作，以及

根据所述播放动作将对所述音量级的调整提供至所述音频播放装置；

其中所述环境感测装置还被配置来：

确定所述音频输入的平均绝对振幅；

根据所述音频捕捉装置的声音输入级特征化来根据所述平均绝对振幅识别声压级；

对在预定时间段上所述音频输入的超出预定响度阈值的样本数量进行计数；以及

确定所述响度估计对应于以下中的一个：(i)当所述计数超出阈值时的高响度条件，(ii)当所述计数不超出所述阈值时的低响度条件，以及(iii)当所述音频输入基本上不包括声音信息时的无声条件。

2.如权利要求1所述的系统，其中所述环境感测装置还被配置来根据环境条件至播放动作的映射确定所述播放动作，其中所述映射指定当出现以下情况时降低所述音量级：(i)所述音频内容分类指示所述语音存在且所述响度估计指示响度条件低于预定义的声压级，或者(ii)所述音频内容分类指示背景噪声存在且所述响度估计指示响度条件高于所述预定义的声压级。

3.如权利要求1所述的系统，其中所述音频捕捉装置整合到以下装置中的一个中：(i)所述音频播放装置，以及(ii)所述音频再现装置。

4.如权利要求1所述的系统，其中所述环境感测装置还被配置来：

将所述音频输入传递通过带通滤波器以选择语音的第一共振峰；

估计所述音频输入的音调；

对在预定时间段上所述音频输入中的所述音调在语音的第一共振峰的范围内的样本数量进行计数；以及

确定所述音频内容分类对应于以下中的一个：(i)当所述计数超出第一阈值时的语音和噪声条件，(ii)当所述计数超出第二阈值但不超出所述第一阈值时的语音条件，以及(iii)当所述计数不超出所述第二阈值时的噪声条件。

5.如权利要求4所述的系统，其中所述环境感测装置还被配置来使用平均幅度差函数(AMDF)估计所述音调。

6.如权利要求4所述的系统，其中所述第一阈值是所述样本的约65％，并且所述第二阈值是所述样本的约40％。

7.如权利要求1所述的系统，其中所述环境感测装置还被配置来：

对所述音频输入执行所述语音的识别；

将识别的语音与用户自定义文字进行比较；以及

当检测出所述识别的语音与所述用户自定义文字的匹配时对所述音量级进行静音。

8.如权利要求1所述的系统，其中所述环境感测装置还被配置来还根据所述环境感测装置的确定的位置改变估计确定将执行的播放动作。

9.如权利要求8所述的系统，其中所述环境感测装置还被配置来：

接收加速度计位置数据；以及

基于所述加速度计位置数据确定以下中的一个的位置改变：(i)所述环境感测装置不移动的静止位置，以及(ii)所述环境感测装置移动的改变位置。

10.如权利要求9所述的系统，其中所述环境感测装置还被配置来在所述环境感测装置正在移动时还确定：(i)第一速度改变位置，其中所述环境感测装置以指示无车辆情况下的行进的速率移动，以及(ii)第二速度改变位置，其中所述装置以指示在所述车辆内行进的速度移动。

11.如权利要求1所述的系统，其还包括压力传感器，其中所述环境感测装置还被配置来在所述压力传感器指示移动的改变时对所述音量级进行静音。

12.一种用于音频播放的方法，包括：

基于来自音频捕捉装置的音频输入检测以一定的音量级驱动音频再现装置的音频播放装置的用户周围的环境条件，所述环境条件包括指示包括在所述音频输入中的背景噪声级的响度估计和指示所述音频输入中存在语音的音频内容分类；

根据所述环境条件确定用以改变由所述音频播放装置提供的所述音量级的播放动作；以及

其中，所述方法还包括：

确定所述音频输入的平均绝对振幅；

13.如权利要求12所述的方法，还包括根据环境条件至播放动作的映射确定所述播放动作，其中所述映射指定当出现以下情况时降低所述音量级：(i)所述音频内容分类指示所述语音存在且所述响度估计指示响度条件低于预定义的声压级，或者(ii)所述音频内容分类指示噪声存在且所述响度估计指示响度条件高于所述预定义的声压级。

14.如权利要求12所述的方法，还包括：

估计所述音频输入的音调；

15.如权利要求12所述的方法，还包括：

对所述音频输入执行所述语音的识别；

将识别的语音与用户自定义文字进行比较；以及

16.如权利要求12所述的方法，还包括当从压力传感器接收的数据指示所述音频播放装置的移动的改变时对所述音量级进行静音。

17.一种包括计算机指令的非暂时性计算机可读介质，当所述计算机指令被音频播放装置的处理器执行时使得所述音频播放装置执行包括以下的操作：

根据所述播放动作提供对所述音量级的调整；

所述计算机可读介质还包括指令，所述指令被配置来使所述音频播放装置：

确定所述音频输入的平均绝对振幅；

18.如权利要求17所述的介质，还包括指令，所述指令被配置来使得所述音频播放装置根据环境条件至播放动作的映射确定所述播放动作，其中所述映射指定当出现以下情况时降低所述音量级：(i)所述音频内容分类指示所述语音存在且所述响度估计指示响度条件低于预定义的声压级，或者(ii)所述音频内容分类指示噪声存在且所述响度估计指示响度条件高于所述预定义的声压级。

19.如权利要求17所述的介质，还包括指令，所述指令被配置来使所述音频播放装置：

估计所述音频输入的音调；

20.如权利要求17所述的介质，还包括指令，所述指令被配置来使所述音频播放装置：

对所述音频输入执行所述语音的识别；

将所述识别的语音与用户自定义文字进行比较；以及

21.如权利要求17所述的介质，还包括指令，所述指令被配置来在从压力传感器接收的数据指示所述音频播放装置的移动的改变时使所述音频播放装置对所述音量级进行静音。