CN107078706A

CN107078706A - 自动音频调整

Info

Publication number: CN107078706A
Application number: CN201580057122.7A
Authority: CN
Inventors: T.里德; I.塔图里安
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2014-11-20
Filing date: 2015-11-13
Publication date: 2017-08-18
Also published as: WO2016081304A1; EP3221863A1; US20160149547A1; EP3221863A4

Abstract

本文描述用于自动视频调整的各种系统和方法。用于自动音频调整的处理系统可包括：监测模块，用于获得收听环境的情景数据；用户简档模块，用于访问收听者的用户简档；以及音频模块，用于基于情景数据和用户简档调整音频输出特性，该音频输出特性要在媒体回放设备上的媒体表现中使用。

Description

自动音频调整

相关申请的交叉引用

该专利申请要求2014年11月20日提交的美国申请号14/548,508的优先权的权益，其通过引用全部合并于此。

技术领域

本文描述的实施例大体涉及媒体回放并且特别涉及用于自动音频调整的机制。

背景技术

音频对于例如电视、广播、电影等媒体是常见组件。不同用户和不同情形影响音频输出的有效性。例如，在用户从具有低环境噪声的区域通行到具有较高环境噪声的区域时用户可能频繁调整歌曲的音量，并且反之亦然。一些系统使用噪声消除，例如利用破坏性波干扰，以试图消除不希望的环境噪声。

附图说明

在附图（其不必按比例绘制）中，类似的数字可以描述不同视图中的相似部件。具有不同字母后缀的类似数字可以代表相似部件的不同实例。一些实施例通过示例而非限制的方式在附图的图中图示，其中：

图1是图示根据实施例的收听环境的示意图；

图2是图示根据实施例的系统的各种状态的数据和控制流程图；

图3是图示根据实施例用于自动音频调整的方法的流程图；以及

图4是图示根据示例实施例、本文论述的技术（例如，方法）中的任一个或多个可在其上执行的示例机器的框图。

具体实施方式

本文描述的系统和方法提供用于自动调整对收听者的媒体呈现的音量的机制。音量可以基于下列因素中的一个或多个来调整，这些因素包括：背景噪声级；呈现的位点、时间或情景（context）；其他人的存在或不存在，可能包括年龄或性别作为因素；以及基于收听者自己的音量调整习惯的模型。使用这些因素以及可能其他，论述的系统和方法可以获悉用户的偏好并且预测用户偏好的音频音量、音频效果（例如，均衡器设置）等。系统和方法可以利用各种类型的媒体呈现设备（例如，音响系统、耳机、计算机、智能电话、车载信息娱乐系统、电视等）并且利用各种输出形式（例如，扬声器、耳机、耳塞，等）运作。

图1是图示根据实施例的收听环境100的示意图。该收听环境100包括传感器102和媒体回放设备104。尽管在图1中仅图示一个传感器102，理解可以使用两个或以上传感器。传感器102可以集成到媒体回放设备104内。传感器102可以是拍摄装置、红外传感器、麦克风、加速计、测温仪或类似物。传感器102可以是微机电系统（MEMS）或宏观尺度的部件。传感器102可以检测温度、压力、惯性力、磁场、辐射等。传感器102可以是独立设备（例如，顶置式拍摄装置）或集成设备（例如，智能电话中的拍摄装置）。传感器102可以并入可穿戴设备，例如手表、眼镜或类似物。

此外，传感器102还可以配置成检测生理指示。传感器102可以是任何类型的传感器，例如基于接触的传感器、光传感器、温度传感器或类似物。传感器102可以适于检测人的心率、皮肤温度、脑波活动、警觉性（例如，基于拍摄装置的眼睛跟踪）、活动水平或其他生理或生物数据。传感器102可以集成到可穿戴设备（例如腕带、眼镜、头带、胸带、衬衫或类似物）内。备选地，传感器102可以集成到非可穿戴系统内，例如车辆（例如，座椅传感器、面向内拍摄装置、红外测温仪，等）或自行车。若干不同的传感器102可以安装或集成到可穿戴或非可穿戴设备内来收集生理或生物信息。

媒体回放设备104可以是具有音频输出的任何类型的设备。该媒体回放设备104可以是智能电话、便携式电脑、平板、音乐播放器、音响系统、车载式信息娱乐系统或类似物。媒体回放设备104可以向扬声器或听筒输出音频。

处理系统106经由网络108连接到媒体回放设备104和传感器102。处理系统106可以并入媒体回放设备104、作为单独设备在媒体回放设备104本地定位或托管在经由网络可访问的云中。

网络108包括任何类型的有线或无线通信网络或有线或无线网络的组合。通信网络的示例包括局域网（LAN）、广域网（WAN）、因特网、移动电话网络、普通老式电话（POTS）网络和无线数据网络（例如，Wi-Fi、3G和4G LTE/LTE-A或WiMAX网络）。网络108起到使数据回程到核心网络（例如，到数据中心106或其他目的地）的作用。

在操作期间，处理系统106监测收听环境100的各种方面。这些方面包括但不限于背景噪声级、收听的位点、时间、情景、其他人的存在、收听者或存在的其他人的识别或其他特性以及收听者的音频调整。基于这些输入以及可能其他，处理系统106获悉收听者随时间的偏好。使用机器学习进程，处理系统106则可以对于各种情景预测用户偏好。可以使用各种机器学习进程，其包括但不限于决策树学习、关联规则学习、人工神经网络、归纳逻辑编程、贝叶斯网络及类似物。

作为示例，收听者110可以之后在晚上观看电视。收听者的孩子们可以在隔壁房间入睡。尽管收听者110在观看电视节目，广告、场景或广播的其他部分的音量可有变化。处理系统106可以检测到收听者的孩子们入睡或准备休息，并且时间是孩子们的规律上床时间之后。处理系统106还可以检测收听者110的身份。使用该输入，处理系统106可以采用某一方式设置音量或其他音频特征以避免打扰收听者的孩子们。例如，收听者110可以识别为已知具有轻微听力障碍的年长男性。收听者的孩子们的卧室里的额外传感器可以提供关于隔壁房间中的实际噪声级的了解。基于这些输入以及可能其他，处理系统106可以将音量设置得稍微高些以考虑收听者的听力损失以及卧室被很好地声音绝缘这一事实。

在该情形中控制声音的一个机制是使用反馈环路。随着麦克风传感器在收听者位置附近，处理系统106可以确定有效音量级。在由于广播节目制作（例如，响亮声音效果或具有不同声音均衡器级别的广告）改变而出现音量改变时，媒体回放设备104的音量可以上或下调整来维持近似目标音量级。

控制声音的另一个机制是使用预采样。处理系统106可以维持媒体内容或访问媒体内容的缓冲器以便在通过媒体回放设备104对收听者回放它们之前确定音量改变。采用该方式，处理系统106可以在出现音量剧增或跌落之前抢占性地调整音量级或其他音频特征。

尽管音量是可以自动调整的一个音频特征，理解还可以调整其他特征。例如，可以改变均衡器级别来强调对话（例如，其典型地处于较高频率）和削弱声音效果（例如，爆发典型地处于较低频率）。另外，在更先进的系统中，可以访问和调整（例如，控制音量）个体声音音道。这样，可以以较低音量输出声音效果音道并且可以以较高音量输出对话音道来适应某一收听者或情景。

作为另一个示例，MEMS设备可以用于感测收听者是在走还是跑。基于该评估，可以调整音量设置或其他音频设置。这样的活动监测可以使用加速计（例如，MEMS加速计）、血压传感器、心率传感器、皮肤温度传感器或类似物执行。例如，如果用户是静止的（例如，如由加速计确定的）、处于仰卧（例如，如由姿态传感器确定的）以及相对低的心率（例如，如由心率监测器确定的），音量可以降低来反映收听者在试图入睡这一可能性。一天的时间、收听者的位点以及其他输入可以用于证实该确定或使其无效，并且从而改变使用的音频设置。

在描述的这些情形中，收听者110能够手动改变音量或其他音频设置。在这样做时，处理系统106捕捉这样的改变并且使用活动作为对机器学习进程的输入。如此，在收听者110与处理系统106交互时，处理系统106关于收听者的偏好变得更高效且准确。

图1描述用于自动音频调整的处理系统106，其包括用于获得收听环境100的情景数据的监测模块112，该收听环境100包括收听者110。处理系统106还可以包括用于访问收听者110的用户简档的用户简档模块114，和用于基于情景数据和用户简档调整音频输出特性的音频模块116，该音频输出特性要在媒体回放设备104上的媒体表现中使用。用户简档可以存储在媒体回放设备上或处理系统106处。处理系统106可以并入媒体回放设备104或可以是单独的。若干用户简档可以一起存储并且例如在若干用户中的一个在使用媒体回放设备104时被访问。

在实施例中，为了获得情景数据，监测模块112访问健康监测仪，并且情景数据包括指示收听者110的生理状态的传感器数据。在另外的实施例中，健康监测仪集成到收听者110穿戴的可穿戴设备内。健康监测仪可以是心率监测仪、大脑活动监测仪、姿态传感器或类似物。

在实施例中，为了获得情景数据，监测模块112分析视频图像。情景数据可以包括指示收听环境100中存在的人的数量的数据，其中人的数量通过分析视频图像获得。例如，收听环境100可以配备有一个或多个拍摄装置（例如，传感器102），并且使用视频信息可以获得收听环境100中或周围的人的计数。可以从视频信息获得额外信息，其包括人的身份、大致年龄、性别、活动或类似物。这样的信息可以用于增广情景数据并且影响音频输出特性（例如，提升或降低音量）。

在实施例中，用户简档包括媒体表现的历史和收听音量的历史。通过跟踪用户活动并且保存用户观看或收听什么、何时、持续多久以及使用什么收听音量或其他音频输出特性的历史，用户偏好和一般收听特性可以模型化。该历史可以在机器学习进程中使用。从而，在实施例中，用户简档模块114基于情景数据修改用户简档。在另外的实施例中，为了修改用户简档，用户简档模块114使用机器学习进程。用户简档可以本地或远程存储。例如，用户简档的一个副本可以存储在回放设备104上，另一个副本存储在云中，例如在处理系统106处或经由网络108而可访问的另一个服务器处。利用网络可访问用户简档，偏好、模型、规则和其他数据可以传送到任何收听环境。例如，如果收听者110在旅行并且租车，或呆在酒店中，用户简档可以在这些环境中提供来修改在这些环境中回放媒体的设备（例如，汽车音响或酒店房间中的电视）的音频输出特性。

在实施例中，情景数据包括关于收听环境100中存在的其他人的信息，并且为了修改用户简档，用户简档模块114：捕捉对音频输出的修改，该修改由收听者119提供；以及使修改与关于收听环境100中存在的其他人的信息相关。在另外的实施例中，关于收听环境100中存在的其他人的信息使用集成到收听环境100中存在的其他人所穿戴的可穿戴设备内的传感器来捕捉。例如，收听者110可以穿戴可穿戴传感器并且他的孩子们可以具有他们自己的能够检测生理信息的可穿戴传感器。当孩子们在隔壁房间入睡时（例如他们的位点和活动状态可以由可穿戴传感器检测），可以修改媒体回放设备104的音量，例如通过降低输出音量。该动作可以基于收听者110所观看的之前的活动，其中收听者110在确定他的孩子们入睡后手动降低音量。此外，在该情况下，收听环境100理解成包括可以听见媒体表现的任何区域，其可以包括隔壁房间或在收听者110正在观看媒体回放所在的房间上方或下方的房间。

在实施例中，音频模块116基于收听环境100中存在的其他人的生理状态（如使用集成到收听环境100中存在的其他人所穿戴的可穿戴设备内的传感器所识别的）来调整音频输出特性。

在实施例中，为了基于情景数据修改用户简档，用户简档模块114：关于情景数据随时间监测收听者110的行为；使用该行为构建收听者偏好模型；并且使用收听者偏好模型来调整音频输出特性。

在实施例中，用户简档包括时间表（schedule），并且为了基于情景数据和用户简档调整音频输出特性，音频模块116：识别与时间表上的预约关联的位点；确定收听者110在该位点处；以及当收听者110在该位点处时调整音频输出特性。例如，收听者110可以保持电子日历并且在日历中包括日常锻炼预约。当收听者110到达健身房锻炼时，收听者的媒体回放设备104可以自动提高输出音量来适应比寻常的环境噪声更响亮。在收听者的时间表锻炼预约结束后，媒体回放设备104可以将音量降低到之前的设置。

在实施例中，为了获得收听环境100的情景数据，监测模块112确定收听者的活动；并且为了调整音频输出特性，音频模块116基于收听者110的活动调整输出音量。在另外的实施例中，收听者110的活动包括训练活动，并且为了调整音频输出特性，音频模块116提高媒体表现的输出音量。在另一个实施例中，收听者110的活动包括休息活动，并且为了调整音频输出特性，音频模块116减小媒体表现的输出音量。休息活动可以使用心率监测仪、姿态传感器或类似物检测，并且可以确定收听者110俯卧（prone）或入睡。作为响应，输出音量可以降低或减弱。

在实施例中，音频输出特性包括音频音量设置。在实施例中，音频输出特性包括音频均衡器设置。在实施例中，音频输出特性包括音频音道选择。可以使用其他音频输出特性，或这些音频输出特性的组合可以一起使用。

图2是图示根据实施例的各种状态200的数据和控制流程图。图2包括一个或多个输入的输入组202。来自输入组202的输入被馈送到处理块204。该处理框204整合输入并且为收听者创建可能的声音场景。可选的模式选择块206可提供给收听者来选择处理器块204创建的声音场景中的一个。备选地，声音场景由系统选择并且被声音调制块208用于改变音频输出的特性。可选的用户反馈块210可以可用于捕捉、记录输入并且在反馈环路中将输入返回提供给处理块204。

输入组202可以包括各种输入，其包括传感器输入212、环境采样输入214、用户偏好216、情景和状态218和设备类型220。传感器输入212包括各种传感器数据，例如环境噪声、温度、生物/生理数据等。环境采样输入214可以包括与操作环境有关的各种数据，例如用于确定活动级别或收听者姿态的加速计（例如，MEMS设备）。用户偏好216可以包括由用户（例如，收听者110）提供的用户特性，例如年龄、听力状况、性别及类似物。用户偏好216还可以包括指示用户对特定位点、事件、时间或类似物偏好的音量或音频调整的数据。例如，用户偏好可以与位点有关，使得用户在他们家里的锻炼室收听媒体时，偏好的音量可以设置在比用户在他们家里的办公室收听媒体时要高的音量。

情景和状态218输入提供发现设备和用户的地点、时间和情形。情景和状态218输入可以从传感器输入212或环境采样输入214推导。

设备类型输入220指示媒体回放设备，例如智能电话、车载式信息娱乐系统音乐播放器、笔记本、平板、音乐播放器等。设备类型输入220还可以包括关于额外设备（例如耳机、耳塞、扬声器等）的信息。

使用来自输入组202的输入中的一些或全部，处理块204分析可用输入并且创建一个或多个可能声音场景。声音场景描述收听环境的各种方面，例如位点、情景、环境状况、媒体类型等。声音场景可以用描述性名称标记，例如“MOVIE”、“CAR”或“TALK RADIO”，并且可以与音频输出简档关联。音频输出简档可以定义音量、均衡器设置、音道选择及类似物，来使媒体回放的输出音频自适应地混合。

在一些实施例中，对收听者提供模式选择功能（模式选择块206），其中用户可以选择声音场景。选择功能可以在图形用户界面上提供并且可以呈现与每个可用声音场景关联的描述性名称。

声音调制块208操作以根据选择的声音场景更改输出音频。声音场景可以由系统自动选择或由用户手动选择（在模式选择块206处）。声音调制可以包括例如降低或提高音量、添加或移除某些频率范围的强度（例如，调整均衡器设置）或启用/停用或修改音频输出中的音道等操作。音频在声音调制块208期间输出。

在一些实施例中，收听者可以提供反馈（框210）。用户反馈可以采用任何形式，其包括手动调整音量、使用语音命令来提高/减小音量、使用手势命令或类似物。用户反馈可以反馈到处理块204内，其可以使用该反馈用于进一步决策制定。另外或可选地，用户反馈可以作为用户偏好而被存储或被包含（框216）。

作为另一个说明性操作示例，用户可以偶然在星期天在风景优美的道路上驾驶。系统可以检测用户的身份、检测到用户在车辆中并且在特定路线行驶，并且确定用户正使用车载式信息娱乐系统收听卫星广播电台。系统还可以确定因为敞篷车顶部放下，用户暴露于增加的环境路面噪声和风噪。基于这些输入，系统可以提高车载式信息娱乐系统的音量。音量设置可以从与媒体回放的情景关联的声音场景获得。当用户戴上噪声消除式耳机来降低环境风噪中的一些时，系统可以检测该额外设备使用并且降低音频呈现的音量。后来，在用户旋转音响头部上的音量控制来提高音量时，系统可以捕捉这样的动作并且存储修改的音量作为下一次出现特定声音场景的目标音量。

图3是图示根据实施例用于自动音频调整的方法300的流程图。在框302，在处理系统处获得收听环境的情景数据。在实施例中，获得情景数据包括访问健康监测仪，并且其中情景数据包括指示收听者的生理状态的传感器数据。在另外的实施例中，健康监测仪集成到收听者穿戴的可穿戴设备内。

在实施例中，获得情景数据包括分析视频图像，并且其中情景数据包括指示收听环境中存在的人的数量的数据，人的数量通过分析视频图像获得。

在实施例中，用户简档包括媒体表现的历史和收听音量的历史。

在框304处，访问收听者的用户简档。收听环境包括收听者。

在框306处，基于情景数据和用户简档调整音频输出特性，该音频输出特性要在媒体回放设备上的媒体表现中使用。

在另外的实施例中，方法300包括基于情景数据修改用户简档。在另外的实施例中，修改用户简档使用机器学习进程来执行。在另一个实施例中，情景数据包括关于收听环境中存在的其他人的信息，并且修改用户简档包括：捕捉对音频输出的修改，该修改由收听者提供；以及使修改与关于收听环境中存在的其他人的信息相关。在另外的实施例中，关于收听环境中存在的其他人的信息使用集成到收听环境中存在的其他人所穿戴的可穿戴设备内的传感器捕捉。在另外的实施例中，方法300包括基于收听环境中存在的其他人的生理状态（如使用集成到收听环境中存在的其他人所穿戴的可穿戴设备内的传感器识别的）来调整音频输出特性。

在实施例中，基于情景数据修改用户简档包括：关于情景数据随时间监测收听者的行为；使用该行为构建收听者偏好模型；以及使用收听者偏好模型来调整音频输出特性。

在实施例中，用户简档包括时间表，并且基于情景数据和用户简档调整音频输出特性包括：识别与时间表上的预约关联的位点；确定收听者在该位点处；以及当收听者在该位点处时调整音频输出特性。

在实施例中，获得收听环境的情景数据包括确定收听者的活动；并且调整音频输出特性包括基于收听者的活动调整输出音量。

在实施例中，收听者的活动包括训练活动，并且调整音频输出特性包括提高媒体表现的输出音量。在另一个实施例中，收听者的活动包括休息活动，并且调整音频输出特性包括减小媒体表现的输出音量。

在实施例中，音频输出特性包括音频音量设置、音频均衡器设置或音频音道选择。可以使用其他音频输入特性，或可以使用音频特性的组合。

实施例可以在硬件、固件和软件的一个或组合中实现。实施例还可以实现为存储在机器可读存储设备上的指令，其可以被至少一个处理器读取和执行来执行本文描述的操作。机器可读存储设备可以包括用于采用机器（例如，计算机）可读形式存储信息的任何非暂时性机构。例如，机器可读存储设备可以包括只读存储器（ROM）、随机存取存储器（RAM）、磁盘存储介质、光存储介质、闪速存储器设备以及其他存储设备和介质。

如本文描述的示例可以包括逻辑或许多部件、模块或机构或可以在逻辑或许多部件、模块或机构上操作。模块可以是通信地耦合于一个或多个处理器以便实施本文描述的操作的硬件、软件或固件。模块可以是硬件模块，并且如此的模块可以被认为是能够执行规定操作的有形实体并且可以采用某一方式配置或设置。在示例中，电路可以采用规定方式设置（例如，在内部或关于外部实体，例如其他电路）为模块。在示例中，一个或多个计算机系统（例如，独立客户端或服务器计算机系统）或一个或多个硬件处理器的整体或部分可以由固件或软件（例如，指令、应用部分或应用）配置为操作成执行规定操作的模块。在示例中，软件可以驻存在机器可读介质上。在示例中，软件在被模块的底层硬件执行时促使硬件执行规定操作。因此，术语硬件模块理解成包含有形实体，即物理构造、专门配置（例如，硬接线）或暂时（例如，短暂）配置（例如，被编程）成采用规定方式操作或执行本文描述的任何操作的部分或全部的实体。考虑到其中暂时配置模块的示例，这些模块中的每个不需要在任一时刻被例示。例如，在模块包括使用软件配置的通用硬件处理器的情况下；通用硬件处理器可以在不同时间配置为相应的不同模块。软件因此可以配置硬件处理器例如以在一个时间实例构成特定模块并且在不同时间实例构成不同模块。模块也可以是软件或固件模块，其操作成执行本文描述的方法。

图4是图示根据示例实施例采用计算机系统400的示例形式的机器的框图，指令集或序列可以在该计算机系统400内执行以促使该机器执行本文论述的方法中的任一个。在备选实施例中，机器作为独立设备操作或可以连接（例如，联网）到其他机器。在联网部署中，机器可以在服务器-客户端网络环境中以服务器或客户端机器的身份操作，或它可以充当对等（或分布式）网络环境中的对等机器。机器可以是车载系统、机顶盒、可穿戴设备、个人计算机（PC）、平板PC、混合平板、个人数字助理（PDA）、移动电话或能够执行规定该机器待采取的动作的指令（相继或用别的方式）的任何机器。此外，尽管仅图示单个机器，术语“机器”还应被认为包括独立或联合执行指令集（或多个集）来执行本文论述的方法中的任一个或多个的机器的任何集合。相似地，术语“基于处理器的系统”应被认为包括由处理器（例如，计算机）控制或操作来独立或联合执行指令以执行本文论述的方法中的任一个或多个的一个或多个机器的任何集。

示例计算机系统400包括至少一个处理器402（例如，中央处理单元（CPU）、图形处理单元（GPU）或两者兼而有之、处理器核、计算节点，等）、主存储器404和静态存储器406，其经由链路408（例如，总线）而彼此通信。计算机系统400可以进一步包括视频显示单元410、字母数字输入设备412（例如，键盘）和用户界面（UI）导航设备414（例如，鼠标）。在一个实施例中，视频显示单元410、输入设备412和UI导航设备414并入触屏显示器。计算机系统400可以另外包括存储设备416（例如，驱动单元）、信号生成设备418（例如，扬声器）、网络接口设备420和一个或多个传感器（未示出），例如全球定位系统（GPS）传感器、罗盘、加速计或其他传感器。

存储设备416包括机器可读介质422，在其上存储数据结构和指令424（例如，软件）的一个或多个集，这些数据结构和指令体现本文论述的方法或功能中的一个或多个或由其所使用。指令424在被计算机系统600执行期间还可以驻存（完全或至少部分）在主存储器404、静态存储器406内和/或处理器402内，其中主存储器404、静态存储器406和处理器402也构成机器可读介质。

尽管机器可读介质422在示例实施例中图示为单个介质，术语“机器可读介质”可以包括存储一个或多个指令424的单个介质或多个介质（例如，集中式或分布式数据库，和/或关联的高速缓存和服务器）。术语“机器可读介质”还应被认为包括能够存储、体现或承载指令以供机器执行并且促使机器执行本公开的方法中的任一个或多个或能够存储、体现或承载被这样的指令所使用或与之关联的数据结构的任何有形介质。术语“机器可读介质”因此应被认为包括但不限于固态存储器，以及光和磁介质。机器可读介质的特定示例包括非暂时性存储器，其通过示例包括但不限于，半导体存储器设备（例如，电可编程只读存储器（EPROM）、电可擦除可编程只读存储器（EEPROM））和闪速存储器设备；磁盘，例如内部硬盘和可移动盘；磁光盘；以及CD-ROM和DVD-ROM盘。

指令424可以进一步通过通信网络426使用传送介质经由网络接口设备420使用许多众所周知的传输协议（例如，HTTP）中的任一个来传送或接收。通信网络的示例包括局域网（LAN）、广域网（WAN）、因特网、移动电话网络、普通老式电话（POTS）网络和无线数据网络（例如，Wi-Fi、3G和4G LTE/LTE-A或WiMAX网络）。术语“传送介质”应被认为包括能够存储指令、对其编码或承载指令以供机器执行的任何无形介质，并且包括数字或模拟通信信号或其他无形介质用于促进这样的软件的通信。

额外备注&示例：

示例1包括用于自动音频调整的主旨（例如设备、装置或机器），其包括：监测模块，用于获得收听环境的情景数据；用户简档模块，用于访问收听者的用户简档；和音频模块，用于基于情景数据和用户简档调整音频输出特性，该音频输出特性要在媒体回放设备上的媒体表现中使用。

在示例2中，示例1的主旨可以包括，其中为了获得情景数据，监测模块访问健康监测仪，并且其中情景数据包括指示收听者的生理状态的传感器数据。

在示例3中，示例1至2中的任一个的主旨可以包括，其中健康监测仪集成到收听者穿戴的可穿戴设备内。

在示例4中，示例1至3中的任一个的主旨可以包括，其中为了获得情景数据，监测模块分析视频图像，并且其中情景数据包括指示收听环境中存在的人的数量的数据，人的数量通过分析视频图像获得。

在示例5中，示例1至4中的任一个的主旨可以包括，其中用户简档包括媒体表现的历史和收听音量的历史。

在示例6中，示例1至5中的任一个的主旨可以包括，其中用户简档模块基于情景数据修改用户简档。

在示例7中，示例1至6中的任一个的主旨可以包括，其中为了修改用户简档，用户简档模块使用机器学习进程。

在示例8中，示例1至7中的任一个的主旨可以包括，其中情景数据包括关于收听环境中存在的其他人的信息，并且其中为了修改用户简档，用户简档模块：捕捉对音频输出的修改，该修改由收听者提供；以及使修改与关于收听环境中存在的其他人的信息相关。

在示例9中，示例1至8中的任一个的主旨可以包括，其中关于收听环境中存在的其他人的信息使用集成到收听环境中存在的其他人所穿戴的可穿戴设备内的传感器来捕捉。

在示例10中，示例1至9中的任一个的主旨可以包括，其中音频模块基于收听环境中存在的其他人的如使用集成到收听环境中存在的其他人所穿戴的可穿戴设备内的传感器识别的生理状态来调整音频输出特性。

在示例11中，示例1至10中的任一个的主旨可以包括，其中为了基于情景数据修改用户简档，用户简档模块：关于情景数据随时间监测收听者的行为；使用该行为构建收听者偏好模型；以及使用收听者偏好模型来调整音频输出特性。

在示例12中，示例1至11中的任一个的主旨可以包括，其中用户简档包括时间表，并且其中为了基于情景数据和用户简档调整音频输出特性，音频模块：识别与时间表上的预约关联的位点；确定收听者在该位点处；以及当收听者在该位点处时调整音频输出特性。

在示例13中，示例1至12中的任一个的主旨可以包括，其中为了获得收听环境的情景数据，监测模块确定收听者的活动；并且其中为了调整音频输出特性，音频模块基于收听者的活动调整输出音量。

在示例14中，示例1至13中的任一个的主旨可以包括，其中收听者的活动包括训练活动，并且其中为了调整音频输出特性，音频模块提高媒体表现的输出音量。

在示例15中，示例1至14中的任一个的主旨可以包括，其中收听者的活动包括休息活动，并且其中为了调整音频输出特性，音频模块减小媒体表现的输出音量。

在示例16中，示例1至15中的任一个的主旨可以包括，其中音频输出特性包括音频音量设置。

在示例17中，示例1至16中的任一个的主旨可以包括，其中音频输出特性包括音频均衡器设置。

在示例18中，示例1至17中的任一个的主旨可以包括，其中音频输出特性包括音频音道选择。

示例19包括自动音频调整的主旨（例如，用于执行动作的方法、部件；机器可读介质，其包括指令，这些指令在被机器执行时促使该机器执行动作；或用于执行的装置），其包括：在处理系统处获得收听环境的情景数据；访问收听者的用户简档；以及基于情景数据和用户简档调整音频输出特性，该音频输出特性要在媒体回放设备上的媒体表现中使用。

在示例20中，示例19的主旨可以包括，其中获得情景数据包括访问健康监测仪，并且其中情景数据包括指示收听者的生理状态的传感器数据。

在示例21中，示例19至20中的任一个的主旨可以包括，其中健康监测仪集成到收听者穿戴的可穿戴设备内。

在示例22中，示例19至21中的任一个的主旨可以包括，其中获得情景数据包括分析视频图像，并且其中情景数据包括指示收听环境中存在的人的数量的数据，人的数量通过分析视频图像获得。

在示例23中，示例19至22中的任一个的主旨可以包括，其中用户简档包括媒体表现的历史和收听音量的历史。

在示例24中，示例19至23中的任一个的主旨可以包括，其进一步包括基于情景数据修改用户简档。

在示例25中，示例19至24中的任一个的主旨可以包括，其中修改用户简档使用机器学习进程来执行。

在示例26中，示例19至25中的任一个的主旨可以包括，其中情景数据包括关于收听环境中存在的其他人的信息，并且其中修改用户简档包括：捕捉对音频输出的修改，该修改由收听者提供；以及使修改与关于收听环境中存在的其他人的信息相关。

在示例27中，示例19至26中的任一个的主旨可以包括，其中关于收听环境中存在的其他人的信息使用集成到收听环境中存在的其他人所穿戴的可穿戴设备内的传感器来捕捉。

在示例28中，示例19至27中的任一个的主旨可以包括，进一步包括基于收听环境中存在的其他人的如使用集成到收听环境中存在的其他人所穿戴的可穿戴设备内的传感器识别的生理状态来调整音频输出特性。

在示例29中，示例19至28中的任一个的主旨可以包括，其中基于情景数据修改用户简档包括：关于情景数据随时间监测收听者的行为；使用该行为构建收听者偏好模型；以及使用收听者偏好模型来调整音频输出特性。

在示例30中，示例19至29中的任一个的主旨可以包括，其中用户简档包括时间表，并且其中基于情景数据和用户简档调整音频输出特性包括：识别与时间表上的预约关联的位点；确定收听者在该位点处；以及当收听者在该位点处时调整音频输出特性。

在示例31中，示例19至30中的任一个的主旨可以包括，其中获得收听环境的情景数据包括确定收听者的活动；并且其中调整音频输出特性包括基于收听者的活动调整输出音量。

在示例32中，示例19至31中的任一个的主旨可以包括，其中收听者的活动包括训练活动，并且其中调整音频输出特性包括提高媒体表现的输出音量。

在示例33中，示例19至32中的任一个的主旨可以包括，其中收听者的活动包括休息活动，并且其中调整音频输出特性包括减小媒体表现的输出音量。

在示例34中，示例19至33中的任一个的主旨可以包括，其中音频输出特性包括音频音量设置。

在示例35中，示例19至34中的任一个的主旨可以包括，其中音频输出特性包括音频均衡器设置。

在示例36中，示例19至35中的任一个的主旨可以包括，其中音频输出特性包括音频音道选择。

示例37包括用于自动音频调整的至少一个计算机可读介质，其包括指令，这些指令在由机器执行时促使该机器：在处理系统处获得收听环境的情景数据；访问收听者的用户简档；以及基于情景数据和用户简档调整音频输出特性，该音频输出特性要在媒体回放设备上的媒体表现中使用。

示例38包括至少一个机器可读介质，其包括指令，这些指令在由机器执行时促使该机器执行示例19-36中的任一个的操作。

示例39包括装置，其包括用于执行示例19-36中的任一个的部件。

示例40包括用于自动音频调整的主旨（例如设备、装置或机器），其包括：用于在处理系统处获得收听环境的情景数据的部件；用于访问收听者的用户简档的部件；以及用于基于情景数据和用户简档调整音频输出特性的部件，该音频输出特性要在媒体回放设备上的媒体表现中使用。

在示例41中，示例40的主旨可以包括，其中用于获得情景数据的部件包括用于访问健康监测仪的部件，并且其中情景数据包括指示收听者的生理状态的传感器数据。

在示例42中，示例40至41中的任一个的主旨可以包括，其中健康监测仪集成到收听者穿戴的可穿戴设备内。

在示例43中，示例40至42中的任一个的主旨可以包括，其中用于获得情景数据的部件包括用于分析视频图像的部件，并且其中情景数据包括指示收听环境中存在的人的数量的数据，人的数量通过分析视频图像获得。

在示例44中，示例40至43中的任一个的主旨可以包括，其中用户简档包括媒体表现的历史和收听音量的历史。

在示例45中，示例40至44中的任一个的主旨可以包括，其进一步包括用于基于情景数据修改用户简档的部件。

在示例46中，示例40至45中的任一个的主旨可以包括，其中修改用户简档使用机器学习进程来执行。

在示例47中，示例40至46中的任一个的主旨可以包括，其中情景数据包括关于收听环境中存在的其他人的信息，并且其中用于修改用户简档的部件包括：用于捕捉对音频输出的修改的部件，该修改由收听者提供；以及用于使修改与关于收听环境中存在的其他人的信息相关的部件。

在示例48中，示例40至47中的任一个的主旨可以包括，其中关于收听环境中存在的其他人的信息使用集成到收听环境中存在的其他人所穿戴的可穿戴设备内的传感器来捕捉。

在示例49中，示例40至48中的任一个的主旨可以包括，进一步包括用于基于收听环境中存在的其他人的如使用集成到收听环境中存在的其他人所穿戴的可穿戴设备内的传感器识别的生理状态来调整音频输出特性的部件。

在示例50中，示例40至49中的任一个的主旨可以包括，其中用于基于情景数据修改用户简档的部件包括：用于关于情景数据随时间监测收听者的行为的部件；用于使用该行为构建收听者偏好模型的部件；以及用于使用收听者偏好模型来调整音频输出特性的部件。

在示例51中，示例40至50中的任一个的主旨可以包括，其中用户简档包括时间表，并且其中用于基于情景数据和用户简档调整音频输出特性的部件包括：用于识别与时间表上的预约关联的位点的部件；用于确定收听者在该位点处的部件；以及用于当收听者在该位点处时调整音频输出特性的部件。

在示例52中，示例40至51中的任一个的主旨可以包括，其中用于获得收听环境的情景数据的部件包括用于确定收听者的活动的部件；并且其中用于调整音频输出特性的部件包括用于基于收听者的活动调整输出音量的部件。

在示例53中，示例40至52中的任一个的主旨可以包括，其中收听者的活动包括训练活动，并且其中用于调整音频输出特性的部件包括用于提高媒体表现的输出音量的部件。

在示例54中，示例40至53中的任一个的主旨可以包括，其中收听者的活动包括休息活动，并且其中用于调整音频输出特性的部件包括减小媒体表现的输出音量的部件。

在示例55中，示例40至54中的任一个的主旨可以包括，其中音频输出特性包括音频音量设置。

在示例56中，示例40至55中的任一个的主旨可以包括，其中音频输出特性包括音频均衡器设置。

在示例57中，示例40至56中的任一个的主旨可以包括，其中音频输出特性包括音频音道选择。

上文的详细描述包括对附图（其形成详细描述的一部分）的参考。图通过图示的方式示出可以实践的特定实施例。这些实施例在本文也称为“示例”。这样的示例可以包括除示出或描述的那些以外的元件。然而，还预想包括示出或描述的元件的示例。此外，还预想使用示出或描述的那些元件的任何组合或排列（或其一个或多个方面）的示例，示出或描述的那些元件是关于本文示出或描述的特定示例（或其一个或多个方面）的，或是关于本文示出或描述的其他示例（或其一个或多个方面）的。

在该文献中参考的出版物、专利和专利文献通过引用而全部合并于此，好像通过引用而单独合并一样。在该文献与通过引入而这样合并的那些文献之间的使用不一致的情况下，合并的参考文献中的使用是对该文献的使用的补充；对于不可调和的不一致，在该文献中的使用占主导。

在该文献中，如在专利文献中常见的，使用术语“一”，来包括一个或超过一个，其独立于“至少一个”或“一个或多个”的任何其他实例或使用。在该文献中，术语“或”用于指非排他性，或使得“A或B”包括“A但不是B”、“B但不是A”以及“A和B”，除非另外指出。在附上的权利要求中，术语“包含”和“在…中”用作相应术语“包括”和“其中”的简明语言等同物。同样，在下列权利要求中，术语“包含”和“包括”是开放式的，即，包括除在权利要求中这样的术语后列出的那些以外的元件的系统、设备、物品或过程仍被认为落在该权利要求的范围内。此外，在附上权利要求中，术语“第一”、“第二”和“第三”等仅仅用作标签，并且不意在暗示它们的对象的数值顺序。

上文的描述意在为说明性，而非限制性的。例如，上文描述的示例（或其一个或多个方面）可以与其他结合使用。可以例如由本领域内技术人员在回顾上文的描述时使用其他实施例。提供本摘要来允许读者快速确定本技术公开的本质。提交摘要要理解成该摘要将不用于解释或限制权利要求的范围或含义。同样，在上文的详细描述中，各种特征可聚集在一起来使本公开通顺。然而，权利要求可未阐述本文公开的每个特征，因为实施例可以以所述特征的子集为特征。此外，实施例可包括比特定示例中公开的那些还少的特征。从而，附上的权利要求由此并入详细描述中，其中每个权利要求立足于它自身作为单独的实施例。本文公开的实施例的范围要参考附上的权利要求连同这样的权利要求所赋予的等同物的全范围来确定。

Claims

1.一种用于自动音频调整的处理系统，所述处理系统包括：

监测模块，用于获得收听环境的情景数据；

用户简档模块，用于访问收听者的用户简档；以及

音频模块，用于基于所述情景数据和所述用户简档调整音频输出特性，所述音频输出特性要在媒体回放设备上的媒体表现中使用。

2.如权利要求1所述的系统，其中为了获得所述情景数据，所述监测模块访问健康监测仪，并且其中所述情景数据包括指示所述收听者的生理状态的传感器数据。

3.如权利要求2所述的系统，其中所述健康监测仪集成到所述收听者穿戴的可穿戴设备内。

4.如权利要求1所述的系统，其中为了获得所述情景数据，所述监测模块分析视频图像，并且其中所述情景数据包括指示所述收听环境中存在的人的数量的数据，所述人的数量通过分析所述视频图像获得。

5.如权利要求1所述的系统，其中所述用户简档包括媒体表现的历史和收听音量的历史。

6.如权利要求1所述的系统，其中所述用户简档模块基于所述情景数据修改所述用户简档。

7.如权利要求6所述的系统，其中为了修改所述用户简档，所述用户简档模块使用机器学习进程。

8. 如权利要求6所述的系统，其中所述情景数据包括关于所述收听环境中存在的其他人的信息，并且其中为了修改所述用户简档，所述用户简档模块：

捕捉对音频输出的修改，所述修改由所述收听者提供；以及

使所述修改与关于所述收听环境中存在的其他人的信息相关。

9.如权利要求8所述的系统，其中关于所述收听环境中存在的其他人的信息使用集成到所述收听环境中存在的其他人所穿戴的可穿戴设备内的传感器来捕捉。

10.如权利要求9所述的系统，其中所述音频模块基于所述收听环境中存在的其他人的如使用集成到所述收听环境中存在的其他人所穿戴的可穿戴设备内的传感器识别的生理状态来调整所述音频输出特性。

11.如权利要求6所述的系统，其中为了基于所述情景数据修改所述用户简档，所述用户简档模块：

关于所述情景数据随时间监测所述收听者的行为；

使用所述行为构建收听者偏好模型；以及

使用所述收听者偏好模型来调整所述音频输出特性。

12.如权利要求1所述的系统，其中所述用户简档包括时间表，并且

其中为了基于所述情景数据和所述用户简档调整所述音频输出特性，所述音频模块：

识别与所述时间表上的预约关联的位点；

确定所述收听者在所述位点处；以及

当所述收听者在所述位点处时调整所述音频输出特性。

13.如权利要求1所述的系统，其中为了获得所述收听环境的情景数据，所述监测模块确定所述收听者的活动；并且其中为了调整所述音频输出特性，所述音频模块基于所述收听者的活动调整输出音量。

14.如权利要求13所述的系统，其中所述收听者的活动包括训练活动，并且其中为了调整所述音频输出特性，所述音频模块提高所述媒体表现的输出音量。

15.如权利要求13所述的系统，其中所述收听者的活动包括休息活动，并且其中为了调整所述音频输出特性，所述音频模块减小所述媒体表现的输出音量。

16.如权利要求1所述的系统，其中所述音频输出特性包括音频音量设置。

17.如权利要求1所述的系统，其中所述音频输出特性包括音频均衡器设置。

18.如权利要求1所述的系统，其中所述音频输出特性包括音频音道选择。

19.一种用于自动音频调整的方法，所述方法包括：

在处理系统处获得收听环境的情景数据；

访问收听者的用户简档；以及

基于所述情景数据和所述用户简档调整音频输出特性，所述音频输出特性要在媒体回放设备上的媒体表现中使用。

20.如权利要求19所述的方法，其中获得情景数据包括访问健康监测仪，并且其中所述情景数据包括指示所述收听者的生理状态的传感器数据。

21.如权利要求20所述的方法，其中所述健康监测仪集成到所述收听者穿戴的可穿戴设备内。

22.如权利要求19所述的方法，其中获得情景数据包括分析视频图像，并且其中所述情景数据包括指示所述收听环境中存在的人的数量的数据，所述人的数量通过分析所述视频图像获得。

23.如权利要求19所述的方法，其中所述用户简档包括媒体表现的历史和收听音量的历史。

24.至少一个计算机可读介质，其包括指令，所述指令在由机器执行时促使所述机器执行如权利要求19-23中任一项所述的方法的操作。

25.一种装置，其包括用于执行如权利要求19-23中任一项所述的方法的部件。