CN115866489A - 用于上下文相关的自动音量补偿的方法和系统 - Google Patents
用于上下文相关的自动音量补偿的方法和系统 Download PDFInfo
- Publication number
- CN115866489A CN115866489A CN202211165579.8A CN202211165579A CN115866489A CN 115866489 A CN115866489 A CN 115866489A CN 202211165579 A CN202211165579 A CN 202211165579A CN 115866489 A CN115866489 A CN 115866489A
- Authority
- CN
- China
- Prior art keywords
- electronic device
- audio signal
- audio
- user
- context
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/04—Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/10—Earpieces; Attachments therefor ; Earphones; Monophonic headphones
- H04R1/1041—Mechanical or electronic switches, or control elements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/01—Aspects of volume control, not necessarily automatic, in sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2460/00—Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
- H04R2460/07—Use of position data from wide-area or local-area positioning systems in hearing devices, e.g. program or information selection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/033—Headphones for stereophonic communication
Abstract
本公开涉及用于上下文相关的自动音量补偿的方法和系统。本发明提供了一种由电子设备的经编程的处理器执行的方法。该设备获得音频信号,并且使用一个或多个麦克风获得包括该电子设备所处的环境的音频的麦克风信号。该设备确定该设备的上下文,并且基于所确定的上下文从若干模型中选择音量补偿模型。该设备根据所选择的音量补偿模型和该麦克风信号来处理该音频信号,并且使用经处理的音频信号来驱动该设备的一个或多个扬声器。
Description
本申请要求2021年9月24日提交的美国临时专利申请号63/248,342的权益,该美国临时专利申请以引用方式并入本文。
技术领域
本公开的一方面涉及用于上下文相关的自动音量补偿的方法和系统。还描述了其他方面。
背景技术
头戴受话器是包括一对扬声器的音频设备,当头戴受话器配戴在用户头部上或围绕用户头部配戴时,每个扬声器被放置在用户的耳朵上。类似于头戴受话器,耳机(或入耳式头戴受话器)是两个分开的音频设备,每个音频设备具有插入到用户耳朵中的扬声器。头戴受话器和耳机通常有线连接到单独的回放设备诸如数字音频播放器,该回放设备以音频信号驱动设备的每个扬声器以便生成声音(例如,音乐)。头戴受话器和耳机提供用户可凭借其来单独收听音频内容而不必将音频内容广播给附近其他人的一种方便的方法。
发明内容
本公开的一个方面是一种由电子设备(例如,集成在其中的经编程的处理器)诸如可穿戴设备(例如,一副智能眼镜、智能手表、一对无线头戴受话器等)执行以用于执行上下文相关的自动音量补偿的方法。电子设备获得音频信号,该音频信号可包含用户期望的音频内容,诸如音乐作品、播客、电影音轨等,并且使用一个或多个麦克风获得麦克风信号,该麦克风信号包括电子设备所处的环境的音频(或环境噪声)。该电子设备确定电子设备的上下文,并且基于所确定的上下文从若干音量补偿模型中选择一种音量补偿模型。该电子设备根据所选择的音量补偿模型和麦克风信号处理音频信号,并且使用经处理的音频信号来驱动电子设备的一个或多个扬声器。
在一个方面,可基于音频信号的音频内容来确定电子设备的上下文。例如,当音频内容不包括语音时,所选择的音量补偿模型可包括用于压缩音频信号的整个频率范围的宽带压缩器,而当音频内容包括语音时,所选择的音量补偿模型可包括用于压缩音频信号的整个频率范围的一个或多个频带的子集的多频带压缩器。在一些方面,电子设备的上下文包括一个或多个软件应用程序正在由电子设备的经编程的处理器执行的指示,其中音频信号可与电子设备的用户正在与之进行交互的软件应用程序相关联。在另一方面,电子设备的上下文基于来自电子设备的一个或多个传感器的传感器数据,该一个或多个传感器为诸如全球定位系统(GPS)传感器、相机、麦克风、热敏电阻、惯性测量单元(IMU)和加速度计。在一些方面,电子设备的上下文包括用户的活动,诸如以下至少一者:用户与电子设备(例如,经由一个或多个输入设备接收用户输入的设备)之间的交互,以及当电子设备是用户的一部分或联接到用户时(例如,当由用户穿戴或握持时)由用户执行的身体活动。在一些方面,电子设备的上下文是设备的位置。
在一个方面,电子设备确定对电子设备的上下文的改变,基于对上下文的改变从若干音量补偿模型中选择不同的音量补偿模型,并且根据所选择的不同的音量补偿模型和麦克风信号处理音频信号。在一个方面,每个音量补偿模型包括以下至少一者:待应用于音频信号的一个或多个标量增益值,宽带压缩器或多频带压缩器,压缩比,用于应用压缩比的宽带压缩器或多频带压缩器的启动时间,以及用于移除压缩比的宽带压缩器或多频带压缩器的释放时间。
在一个方面,根据所选择的音量补偿模型和麦克风信号来处理音频信号包括使用所选择的音量补偿模型来针对环境的音频补偿音频信号。在一些方面,电子设备为便携式设备。在另一方面,电子设备为可穿戴设备,诸如一副智能眼镜、或智能手表。在另一方面,一个或多个扬声器被集成在电子设备内,其中电子设备不包括被布置为调整电子设备的一个或多个扬声器的声音输出水平的硬件音量控件。
根据本公开的另一方面,一种由音频回放软件应用程序执行的方法,该音频回放软件应用程序由不包括音量控件的电子设备的经编程的处理器执行,以执行上下文相关的自动音量补偿。电子设备接收包括音频内容的音频信号,并且从被布置为感测电子设备所处的环境的状况的一个或多个传感器接收传感器数据。电子设备确定包括正在由电子设备执行的一个或多个软件应用程序中的每一个软件应用程序的当前状态的设备快照,其中一个或多个软件应用程序包括音频回放软件应用程序。电子设备基于传感器数据、一个或多个软件应用程序的快照,以及音频信号的音频内容来确定音量补偿器的至少一个音频调节参数。设备使用音量补偿器根据所确定的音频调节参数来处理音频信号,并且使用经处理的音频信号来驱动一个或多个扬声器。
在一个方面,一个或多个软件中的每一个软件的当前状态指示当前正在由电子设备执行的软件应用程序中的至少一个软件应用程序、电子设备的用户正在与软件应用程序进行交互,以及音频信号的音频内容是否与软件应用程序相关联。在另一方面,设备快照是包括正在由电子设备执行的软件应用程序的第一状态的第一设备快照,并且该方法还包括确定包括与软件应用程序的第一状态不同的第二状态的第二设备快照;至少基于软件应用程序的第二状态来确定不同的音频调节参数;以及根据所确定的不同音频调节参数来处理音频信号。在一些方面,确定至少一个音频调节参数包括确定音量补偿器将应用于音频信号的标量增益值,以及音量补偿器将压缩音频信号的压缩比、启动时间和释放时间。
以上概述不包括本公开的所有方面的详尽列表。可预期的是,本公开包括可由上文概述的各个方面以及在下文的具体实施方式中公开并且在权利要求书中特别指出的各个方面的所有合适的组合来实践的所有系统和方法。此类组合可具有未在上述发明内容中具体阐述的特定优点。
附图说明
在附图的图示中通过举例而非限制的方式示出了多个方面,在附图中类似的附图标号指示类似的元件。应当指出的是,在本公开中提到“一”或“一个”方面未必是同一方面,并且其意指至少一个。另外,为了简洁以及减少附图的总数,某个附图可能被用于示出不止一个方面的特征,并且对于某个方面,可能并不需要该附图中的所有元素。
图1示出了根据一个方面的系统的框图。
图2示出了根据一个方面的执行上下文相关的自动音量补偿的输出设备的框图。
图3示出了根据一些方面的包括音量补偿模型的数据结构的示例。
图4是根据一个方面的用于执行上下文相关的自动音量补偿的过程的流程图。
图5是根据一个方面的用于确定输出设备的上下文的过程的流程图。
具体实施方式
现在将参考所附附图来解释本公开的各方面。只要在某个方面中描述的部件的形状、相对位置和其他方面未明确限定,这里本公开的范围就不仅仅局限于所示出的部件,所示出的部件仅用于说明的目的。另外,虽然阐述了许多细节,但应当理解,一些实施方案可在没有这些细节的情况下被实施。在其他情况下,未详细示出熟知的电路、结构和技术,以免模糊对该描述的理解。此外,除非该含义明确相反,否则本文示出的所有范围被认为包括每个范围的端值。
图1示出了根据一个方面的系统(或音频系统)1的框图。具体地,系统1包括回放设备2、输出设备3、(例如,计算机)网络(例如,互联网)4和内容服务器5。在一个方面,系统可包括更多或更少的元件,诸如具有附加的内容服务器,或者不包括内容服务器和/或回放设备。在这种情况下,输出设备可执行所有(或大多数)音频信号处理操作,如本文所述。
在一个方面,内容服务器5可以是独立的电子服务器、计算机(例如,台式计算机),或者被配置为存储、流式传输和/或接收数字内容诸如音频内容(例如,作为任何音频格式的一个或多个音频信号)的服务器计算机的集群。在另一方面,内容服务器可以存储视频和/或音频内容诸如电影,用于流式传输(传输)到一个或多个电子设备。如图所示,服务器(例如,经由网络4)通信地耦接到回放设备2,以便流式传输(例如,音频)内容以供(例如,经由输出设备)回放。在另一方面,内容服务器通信地耦接(例如,直接)到输出设备。
在一个方面,回放设备可以是任何电子设备(例如,具有电子部件,诸如一个或多个处理器、存储器等),该回放设备能够以任何格式诸如立体声音频信号流式传输音频内容,以用于(例如,经由集成在回放设备内的一个或多个扬声器和/或经由一个或多个输出设备,如本文所述)回放。例如,回放设备可以是台式计算机、膝上型计算机、数字媒体播放器等。在一个方面,该设备可以是便携式电子设备(例如,可手持操作),诸如平板电脑、智能电话等。在另一方面,回放设备可以是可穿戴设备(例如,被设计成穿戴在(例如,附接到)用户的衣物和/或身体的设备,诸如智能手表。
在一个方面,输出设备3可以是包括至少一个扬声器并且被配置为通过用音频信号驱动扬声器来输出(或回放)声音的任何(例如,便携式)电子设备。例如,如图所示,设备是无线头戴式耳机(例如,入耳式头戴受话器或耳机),该耳机被设计成定位在用户的耳朵上(或耳朵中)并且被设计成将声音输出到用户的耳道中。在一些方面,耳机可以是具有柔性耳机末端的密封类型,该柔性耳机末端用于通过阻挡或闭塞在耳道中来相对于周围环境在声学上密封用户的耳道的入口。如图所示,输出设备包括用于用户左耳的左耳机和用于用户右耳的右耳机。在这种情况下,每个耳机可被配置为输出视频内容的至少一个音频通道(例如,右耳机输出例如音乐作品的立体声录音的双通道输入中的右音频通道,且左耳机输出左通道)。在另一方面,输出设备可以是包括至少一个扬声器并且被布置为由用户佩戴并且被布置为通过用音频信号驱动扬声器来输出声音的任何电子设备。又如,输出设备可以是任何类型的头戴式耳机,诸如至少部分地覆盖用户耳朵并被布置成将声音引导至用户耳朵中的包耳式(或耳上)耳机。在另一方面,输出设备可以是可穿戴电子设备,诸如智能眼镜或智能手表。
在一些方面,输出设备可以是头戴式设备,如本文所例示。在另一方面,输出设备可以是被布置为将声音输出到周围环境中的任何电子设备。示例可包括独立扬声器、智能扬声器、家庭影院系统或集成在车辆内的信息娱乐系统。在另一方面,作为头戴式设备的输出设备可被布置为将声音输出到周围环境中。例如,当输出设备是一副智能眼镜时,输出设备可包括被布置为(例如,在远离佩戴者的至少一部分(诸如耳朵或耳道)的方向上)将声音投射到周围环境中的“耳外”扬声器,这与被布置在在佩戴时将声音投射到用户耳道中(或朝向用户耳道投射)的一对头戴受话器的“内部”扬声器形成对比。
如本文所述,输出设备可以是可以通信地耦接到回放设备以便交换(例如,音频)数据的无线设备。例如,回放设备可被配置为经由无线通信协议(例如,蓝牙协议或任何其他无线通信协议)与输出设备建立无线连接。在所建立的无线连接期间,回放设备可以与输出设备交换(例如,传输和接收)数据分组(例如,互联网协议(IP)分组),该数据分组可包括任何音频格式的音频数字数据。
在一个方面,输出设备可包括用于执行音频信号处理操作的电子部件,诸如一个或多个处理器、存储器等。在另一方面,输出设备可以不包括用于调整音频回放的一个或多个用户控件。例如,输出设备可以不包括(例如,物理的)音量控件,诸如可调旋钮或(例如,物理的)按钮。在一些方面,输出设备可以不包括用于配置(或指示)设备以执行一个或多个操作(诸如调整音量)的任何物理控件。在另一方面,输出设备可包括一个或多个控件(例如,电源按钮),但可能仍然不包括用于调整输出设备处的声音输出的音量水平的(例如,专用的)控件。因此,输出设备可被配置为执行上下文相关的自动音量补偿(AVC),以便基于一个或多个标准来自动调整音量水平。例如,当用户从安静的环境(例如,房屋)移动到嘈杂的环境(例如,繁忙的交叉路口)时,输出设备可以调整音量水平以补偿噪声,而不需要用户手动调整音量控件(例如,通过调大音量)。本文描述了关于上下文相关的AVC的更多内容。
在另一方面,回放设备2和输出设备3中的任一者(或两者)可以被设计成接收用户输入。例如,当回放设备是智能电话时,设备可包括触敏显示屏(未示出),该触敏显示屏被布置为当设备的用户(例如,通过用一根或多根手指轻击屏幕)触摸显示屏时接收用户输入。在另一方面,设备可被设计成感测用户的语音命令作为用户输入。例如,回放(和/或输出)设备可包括被布置为感测语音(和环境声音)的一个或多个麦克风。设备可被配置为检测一个或多个麦克风信号内语音的存在。一旦检测到,设备就可以分析语音以便确定该语音是否包含语音命令以执行一个或多个操作。本文描述了关于接收用户输入的输出(和/或回放)设备的更多内容。
在另一方面,回放设备2可经由其他方法与输出设备3通信地耦接。例如,两个设备均可经由有线连接来耦接。在这种情况下,有线连接的一个端部可以(例如,固定地)连接到输出设备,而另一个端部可具有插入到回放设备的插口中的连接器,诸如媒体插孔或通用串行总线(USB)连接器。一旦被连接,回放设备就可被配置为经由有线连接利用一个或多个音频信号来驱动输出设备的一个或多个扬声器。举例来说,回放设备可将音频信号作为数字音频(例如,PCM数字音频)传输。在另一方面,音频可以模拟格式传输。
在一些方面,回放设备2和输出设备3可以是不同的(独立的)电子设备,如本文所示。在另一方面,回放设备可以是输出设备的一部分(或与输出设备集成)。例如,回放设备的部件中的至少一些部件(诸如一个或多个处理器、存储器等)可以是输出设备的一部分,并且/或者输出设备的部件中的至少一些部件可以是回放设备的一部分。在这种情况下,由回放设备执行的操作中的至少一些操作(例如,来自音频内容服务器5的流式传输的音频内容)可以由输出设备执行。
图2示出了根据一个方面的执行上下文相关的自动AVC的输出设备3的框图。具体地,输出设备可以执行上下文相关的AVC,以便(例如,在使用音频信号21来驱动扬声器26时)基于输出设备的上下文来适配输出设备的声音输出。输出设备被配置为基于输出设备(和/或输出设备的用户)的上下文分析来自动补偿声音输出的音量水平(以及/或者执行一个或多个音频信号处理操作)。如本文所述,这种分析可涉及分析1)输出设备所处的环境,2)输出设备的设备快照(例如,该设备快照可以指示正在执行什么软件应用程序、输出设备的用户的活动等),以及/或者3)输出设备正在回放的音频内容。根据该分析(中的至少一些),输出设备可以确定输出设备的上下文。例如,输出设备可以确定设备(和设备的用户)处于安静的环境中(例如,基于对由麦克风22捕获的一个或多个麦克风信号的分析),因此该输出设备可以降低整体音量水平。音量水平可被降低,因为可能需要较少的声音输出来掩蔽安静环境中的环境噪声。因此,上下文分析允许输出设备通过适配音量水平以及/或者对供输出设备回放的一个或多个音频信号执行一个或多个音频信号处理操作(例如,动态范围压缩)来优化收听者的体验。本文描述了关于执行上下文相关的AVC的输出设备的更多内容。
在一个方面,输出设备包括一个或多个传感器31,该一个或多个传感器包括麦克风22、相机23、加速度计24和惯性测量单元(IMU)25、扬声器26、控制器20和存储器36。在一个方面,输出设备可包括更多或更少的元件,诸如具有多个(例如,两个或更多个)麦克风和/或扬声器,或者不包括传感器中的一个或多个传感器,诸如IMU和/或加速度计。
存储器36可以是任何类型的(例如,非暂态机器可读)存储介质,诸如随机存取存储器、CD-ROM、DVD、磁带、光学数据存储设备、闪存存储器设备和相变存储器。在一个方面,存储器可以是输出设备的一个部件(例如,集成到输出设备内)。例如,存储器可以是控制器20的一部分。在一些方面,存储器可以是单独的设备,诸如数据存储设备。在这种情况下,存储器可以(例如,经由网络接口)与控制器20通信地耦接,以便控制器执行本文所述的操作中的一个或多个操作。
如图所示,存储器中存储有操作系统(OS)38和一个或多个软件应用程序37,当由控制器执行时,该一个或多个软件应用程序使输出设备执行一个或多个操作,如本文所述。在一个方面,存储器可包括更多或更少的应用程序。OS 38是负责活动的管理和协调以及输出设备的资源(例如,控制器资源、存储器等)的共享的软件部件。在一个方面,OS充当在设备上运行的应用程序(例如,应用程序37)的主机。在一些方面,这些应用程序可以在OS之上运行。在一个方面,OS向输出设备的硬件层(未示出)提供接口,并且可包括与硬件层通信的一个或多个软件驱动器。例如,这些驱动器可以接收和处理通过硬件层从通信地耦接到设备的一个或多个其他设备(例如,传感器31中的一个或多个传感器等)接收的数据分组。
如本文所述,存储器包括一个或多个软件应用程序37,该一个或多个软件应用程序包括当由控制器20(例如,一个或多个处理器)执行时使输出设备执行一个或多个操作的指令。例如,输出设备可包括导航应用程序,该导航应用程序(例如,经由网络4从远程服务器)检索路径选择(导航)指令,并且将路径选择指令(例如,经由扬声器26将可听指令)呈现给输出设备的用户。其他类型的软件应用程序可包括警报应用程序、导航应用程序、地图应用程序(该地图应用程序用于向用户呈现地图和/或位置信息)、媒体(例如,音频和/或视频)回放应用程序、社交媒体应用程序(例如,提供在线社交媒体平台的用户界面的应用程序)、锻炼应用程序(例如,跟踪用户的身体活动的应用程序)、医疗保健应用程序(例如,设置并且跟踪用户的以健康为导向的目标的应用程序)、电话应用程序(该电话应用程序允许用户经由蜂窝网络诸如网络4的4G长期演进(LTE)网络等进行电话呼叫)。
控制器20可以是专用处理器诸如专用集成电路(ASIC)、通用微处理器、现场可编程门阵列(FPGA)、数字信号控制器或一组硬件逻辑结构(例如滤波器、算术逻辑单元和专用状态机)。控制器被配置为执行音频信号处理操作和/或联网操作。例如,控制器20可以执行上下文相关的AVC操作,以便调整输出设备的一个或多个扬声器26的声音输出的音量(或声音)水平。本文描述了关于由控制器20执行的操作的更多内容。
在一个方面,一个或多个传感器31被配置为检测环境(例如,输出设备位于其中)并且基于环境产生传感器数据。麦克风22可以是被配置为将由在声学环境中传播的声波导致的声能转换成麦克风信号的任何类型的麦克风(例如,差分压力梯度微机电系统(MEMS)麦克风)。在一个方面,相机23被配置为捕获图像数据(例如,静态数字图像和/或由一系列数字图像表示的视频)。在一些方面,相机是互补金属氧化物半导体(CMOS)图像传感器,该CMOS图像传感器能够捕获包括表示相机的视场的图像数据的数字图像,其中视场包括输出设备所处的环境的场景。在一些方面,相机可以是电荷耦合器件(CCD)相机类型。在一个方面,相机可以定位在输出设备周围的任何位置,以便捕获一个或多个视场。在一些方面,设备可包括多个相机(例如,其中每个相机可具有不同视场)。
加速度计24被布置和配置为接收(检测或感测)在用户(例如,可能穿戴输出设备的用户)说话时产生的语音振动,并且产生表示(或包含)语音振动的加速度计信号。具体地,加速度计被配置为感测在说话和/或哼唱时从用户的声带传输到用户的耳朵(耳道)的骨传导振动。例如,当输出设备是无线耳机时,加速度计可位于头戴受话器上或头戴受话器内可接触用户身体的一部分以便感测用户说话时引起的振动的任何位置。IMU被设计成测量输出设备的位置和/或取向。例如,IMU可产生传感器(或运动)数据,该传感器数据指示输出设备的取向(例如,关于任何X、Y、Z轴)中的改变和/或该设备的位置中的改变。因此,IMU可以产生指示输出设备从一个位置(例如,到另一个位置)移动的方向和速度的运动数据。
在一个方面,输出设备可包括附加的传感器31。例如,输出设备可包括被配置为检测(例如,环境)温度作为传感器数据的热敏电阻器(或温度传感器)。在另一方面,热敏电阻器可被布置为测量输出设备的内部温度(例如,电子部件的温度,诸如处理器)。又如,传感器可包括全球定位系统(GPS)传感器,该GPS传感器可以产生指示输出设备的位置的位置数据。在一个方面,根据位置数据,控制器20可以确定指示输出设备的移动方向和/或速度的运动数据。
扬声器26例如可以是可被专门设计用于特定频带的声音输出的电动驱动器,诸如低音扬声器、高音扬声器或中音驱动器。在一个方面,扬声器可以是“全音域”(或“全频”)电动驱动器,其尽可能多地再现可听频率范围。在另一方面,当输出设备包括两个或更多个扬声器时,每个扬声器可以是相同类型的扬声器(例如,都是全音域的),或者一个或多个扬声器可以不同于其他扬声器,诸如一个是低音扬声器,而另一个是高音扬声器。在一些方面,扬声器26可以是内部扬声器,或者可以是耳外扬声器,如本文所述。
在一个方面,本文所述的任何元件可以是输出设备的一部分(或集成到该输出设备中)(例如,集成到该输出设备的外壳中)。在另一方面,元件中的至少一些元件可以是(例如,经由蓝牙连接)与输出设备(例如,经由输出设备的网络接口与控制器)通信地耦接的一个或多个单独的电子设备(例如,一部分)。例如,扬声器可以被集成到输出设备中,而传感器31中的一个或多个传感器可以被集成到另一设备诸如回放设备2中。在这种情况下,回放设备可以向输出设备传输传感器数据,如本文所述。在另一方面,控制器和一个或多个传感器可以集成到另一设备中。在这种情况下,另一设备可以执行一个或多个音频信号处理操作(例如,上下文相关的AVC操作,如本文所述),以产生一个或多个音频信号。一旦产生,信号就可以经由扬声器26传输到输出设备用于回放。
如本文所述,控制器20被配置为执行音频信号处理操作,诸如上下文相关的AVC。在一个方面,这些操作可以在控制器正在回放声音时执行。例如,控制器20被配置为接收音频信号21(该音频信号可包括用户期望的音频内容,诸如音乐作品、播客等),并且可使用该信号来驱动扬声器26。为了执行上下文相关的AVC操作,控制器包括若干操作块。如图所示,控制器包括设备快照检测器28、上下文引擎和决策逻辑(或上下文引擎)29、音量补偿模型数据库27和音量补偿器30。
设备快照检测器28被配置为确定输出设备的设备快照。具体地,快照可包括电子设备正在执行(和/或当前未在执行)的一个或多个软件应用程序的当前状态。在一个方面,当前状态可包括(例如,具有存储在输出设备的存储器中的指令的)一个或多个软件应用程序(一个或多个软件应用程序中的哪些软件应用程序)当前是否正在由电子设备(例如,该电子设备的一个或多个经编程的处理器)执行的指示(例如,其中软件应用程序执行一个或多个数字信号操作)。例如,当软件应用程序是导航应用程序时,应用程序的当前状态可以指示应用程序是活动的(例如,在前台运行),而应用程序(例如,经由网络4从远程服务器)检索路径选择指令,并且将路径选择指令(例如,经由扬声器26将可听指令)呈现给用户。在一个方面,当前状态可指示应用程序是在后台执行(例如,与应用程序在前台运行时不同,当应用程序在后台运行时,应用程序的任何活动/操作当前对输出设备的用户不可见或不引起注意)还是在前台运行,如关于导航应用程序所述。
在一个方面,快照可包括与由输出设备存储和/或执行的软件应用程序相关的数据。具体地,快照可以指示正在执行的软件应用程序的类型(例如,软件应用程序是警报应用程序还是导航应用程序)。快照还可以指示任何应用程序是否正在回放声音。如本文所述,当控制器用音频信号21驱动扬声器26时,控制器可以执行上下文相关的AVC。在一个方面,快照可以指示音频信号是否与一个或多个软件应用程序相关联。例如,快照可以指示音频信号21与正在输出设备上执行的音频回放软件应用程序相关联(或由其回放)(例如,其中设备的用户打开应用程序并且请求回放音频内容)。
在另一方面,快照可包括关于每个应用程序在执行时使用的(输出设备的)资源量的数据。例如,资源可以指示输出设备的存储器和(例如,一个或多个处理器的)处理资源的量。数据可以指示软件应用程序自被激活(例如,由输出设备的用户打开)以来执行了多长时间。
在一些方面,快照可包括输出设备的一个或多个软件应用程序的历史数据。例如,历史数据可以指示软件应用程序被设备的用户打开和关闭的频率(例如,在一段时间内),可以指示软件应用程序一旦被用户打开(或激活)就执行多长时间(例如,一段时间内的平均值)。历史数据可以指示软件应用程序在该时间段内使用的资源的平均量。在另一方面,快照可包括由一个或多个软件应用程序确定的历史数据。例如,快照可包括医疗保健相关数据(例如,用户的睡眠时间安排、用户的用餐时间等)。在一些方面,历史数据可包括输出设备的一个或多个软件应用程序的任何信息。在一些方面,设备快照可包括数据诸如哪些软件应用程序(例如,相对于其他软件应用程序)被输出设备定期执行。在另一方面,设备快照可以指示哪些软件应用程序比其他应用程序需要更多(例如,高于阈值)的设备资源。在另一方面,设备快照可包括关于一个或多个软件应用程序的任何类型的历史数据。
在另一方面,快照可指示用户是否(以及如何)正在与软件应用程序进行交互。例如,检测器28可基于(例如,当软件应用程序正在执行时)接收用户输入32来作出该确定。在一个方面,可以在输出设备处接收用户输入。例如,用户输入可以是由麦克风22捕获的语音命令,该语音命令包括用于软件应用程序的指令(例如,对来自正在由输出设备执行的导航应用程序的导航指令的请求)。在另一方面,用户输入可以经由与输出设备(例如,该输出设备的一部分)通信地耦接的一个或多个输入设备来接收,诸如物理控制按钮或显示软件应用程序的图形用户界面(GUI)的触敏显示屏(未示出)。例如,用户输入可以指示(例如,基于屏幕上的轻击)对显示在屏幕上的一个或多个UI项的选择。在另一方面,检测器可经由其他方法接收用户输入。
在另一方面,快照可以指示软件应用程序是否正在(例如,当前)向用户呈现数据。如本文所述,快照可以指示特定的软件应用程序是在后台运行还是在前台运行。因此,快照可以指示在应用程序处于前台时软件应用程序的什么信息(数据)正在被呈现(或输出)给用户。例如,当输出设备与显示屏(未示出)通信地耦接时,快照可以指示显示屏是否正在显示软件应用程序的GUI。在另一方面,快照可以指示软件应用程序是否正在经由一个或多个扬声器26回放与应用程序相关联的一个或多个音频信号。具体地,快照可以指示输出设备正在(或将要)回放的音频信号21的音频内容是否与软件应用程序相关联。例如,快照可以指示音频信号包括软件应用程序的音频内容(例如,当软件应用程序是警报应用程序时,快照可以指示音频内容是待回放的振铃音)。
在另一方面,快照可包括与输出设备正在回放的媒体内容(诸如音频内容和/或视频内容)相关的数据(或信息)。例如,当正在由输出设备执行的音频回放软件应用程序用音频信号21驱动扬声器26时,快照可包括与包含在音频信号内的音频内容相关的元数据(例如,当音频内容为歌曲时,元数据可包括歌曲的标题、歌曲的演唱者、歌曲的流派、歌曲的持续时间等)。
如上所述,快照可以指示用户输入32是否在输出设备处被接收以及/或者软件应用程序是否(例如,通过输出设备)向用户呈现数据。在另一方面,快照可包括与来自电子设备(例如,回放设备2)的一个或多个软件应用程序相关的信息,该电子设备与输出设备通信地耦接并且(至少部分地)执行一个或多个软件应用程序。例如,回放设备可包括被布置为存储软件应用程序(例如,诸如应用程序37)中的一个或多个软件应用程序的存储器,并且可包括被布置为执行应用程序的一个或多个处理器。在一些方面中,由两个设备正在执行的应用程序可被配置为(例如,经由有线和/或无线网络)彼此进行交互(例如,交换数据)。例如,回放设备可以正在执行软件应用程序(该软件应用程序可以由输出设备执行)诸如导航应用程序,并且可以接收用户输入(例如,正在显示导航应用程序的图形用户界面(GUI)的回放设备的触敏显示屏上的用户轻击)以执行导航操作。作为响应,回放设备可以将用户输入(例如,作为一个或多个指令)传输到输出设备(例如,其设备快照检测器),指示用户交互(例如,用户对方向的请求)。又如,快照检测器可以从回放设备接收数据,该数据指示设备是否正在呈现软件应用程序的数据,诸如正在回放设备上执行的导航应用程序是否正在经由回放设备的显示屏显示导航指令。
音量补偿模型数据库27包括一个或多个音量补偿模型,每个音量补偿模型具有一个或多个音频调节参数,音量补偿器30可以使用该一个或多个音频调节参数来处理一个或多个音频信号(例如,音频信号21)以供扬声器26回放。在一些方面中,数据库37可以(例如,至少部分地)存储在存储器36内和/或控制器30内,如图所示。在一个方面,数据库可以存储包括一个或多个音量补偿模型的表(例如,作为数据结构),每个音量补偿模型与一个或多个音频调节参数相关联(或具有一个或多个音频调节参数)。图3示出了存储在数据库27内的此类数据结构35的示例。具体地,数据结构是一个或多个音量补偿模型及其相关联的一个或多个音频调节参数的表。如图所示,数据结构包括两个模型(第一模型和第二模型),但如本文所述,可包括更多(或更少)的模型。数据结构内的每个模型包括一个或多个音频调节参数。例如,第一模型和第二模型两者包括标量增益值(V1,V2),音量补偿器30可以将这些标量增益值应用于一个或多个音频信号,以便衰减(或增加)所应用的信号的信号水平。每个模型还与音量补偿器的压缩器类型相关联,以减小所应用的音频信号的动态范围。在一个方面,数据库可具有一个或多个不同的压缩器类型。例如,第一模型包括宽带压缩器,该宽带压缩器在由音量压缩器应用时压缩音频信号的整个(例如,可听见的)频率范围(例如,该音频信号可具有介于20Hz和20kHz之间的频率范围)。第二模型包括多频带压缩器,该多频带压缩器在被应用时压缩音频信号的整个频率范围的一个或多个频带的子集。例如,多频带压缩器可以只压缩低频内容。在另一方面,多频带压缩器可以不同地压缩不同的频带。例如,多频带压缩器可以彼此不同地压缩低频内容(例如,低于第一阈值的频率内容)、中间范围频率内容(例如,在第一阈值和大于第一阈值的第二阈值之间的频率内容)和高频内容(例如,高于第二阈值的频率内容)。
模型还包括压缩比(R1,R2),每个压缩比指定压缩器将应用于一个或多个信号的衰减量。此外,模型包括启动时间(TA1,TA2)和释放时间(TR1,TR2),所述启动时间指示一个或多个音频信号变得完全压缩所花费的时间量,并且所述释放时间指示在信号上释放(或移除)压缩的时间量。因此,在音量补偿器30将第一模型应用于音频信号21时,补偿器将应用具有R1的压缩比的宽带压缩器,具有用于应用压缩器9的启动时间TA1和用于移除宽带压缩器的释放时间TR1。
在一个方面,模型可包括一个或多个附加的音频调节参数。例如,参数可包括一个或多个阈值(例如,以dB为单位),音量补偿器使用该一个或多个阈值来确定是否接合特定的压缩器。在另一方面,模型可包括一个或多个音频滤波器,诸如低通滤波器、带通滤波器和高通滤波器。在另一方面,一个或多个模型可包括限制器,该限制器被配置为将水平限制在阈值(例如,最大)水平以下。在一些方面,模型可包括空间滤波器,该空间滤波器允许音量补偿器在空间上渲染音频信号。例如,空间滤波器可包括一个或多个头部相关的传递函数(HRTF),或等效地,一个或多个头部相关的脉冲响应(HRIR),当一个或多个HRIR应用于一个或多个音频信号时可产生空间音频(例如,双耳渲染的音频信号)。
在另一方面,一个或多个模型可包括多个音频调节参数。例如,第二模型可包括一个或多个压缩比,当多频带压缩器压缩音频信号时,每个压缩比应用于一个或多个频带的不同集合。在另一方面,一个或多个模型(例如,相比于其他模型)可包括更少的音频调节参数。例如,一个模型可以不包括标量增益值,而是仅包括压缩器参数(例如,压缩器类型、比率和启动/释放时间)。
在一个方面,音量补偿模型可以是预定义的模型,这些预定义的模型可能已经在受控环境中(例如,在实验室内)定义。在另一方面,模型中的至少一些模型可以是用户定义的(例如,基于由输出设备接收的用户输入)。在一些方面,可基于用户偏好以及/或者基于上下文引擎29的模型选择来(例如,随时间的推移)导出音量补偿模型。本文描述了关于基于对上下文引擎的选择来导出模型的更多内容。
在一个方面,音量补偿模型(例如,存储在数据库27内)可以与输出设备的一个或多个上下文相关联。具体地,每个模型可被配置为根据特定上下文(或场景)来补偿(或适配)输出设备的声音输出。在一个方面,模型可被配置为优化将由音量补偿器30补偿的音频信号的音频内容。例如,当待压缩的音频信号的音频内容具有语音以便提高可理解性时,多频带压缩器可以是优选类型的压缩器。因此,第二模型可被配置为最佳地适配包括语音(例如,播客)的音频信号的声音输出。宽带补偿器对于不包括语音(或者不仅仅是语音,诸如音乐作品)的音频内容可以是最佳的。因此,第一模型可被配置为最佳地适配包括音乐作品的音频信号的声音输出。在另一方面,模型可以与特定的环境条件相关联。例如,第一模型可以与处于噪声环境中(例如,在噪声环境水平高于阈值的环境中)的输出设备相关联,并且因此标量增益值可以为高(例如,高于增益阈值)。相反,第二模型可以与处于安静环境中(例如,噪声环境水平低于阈值)的输出设备相关联,并且因此标量增益值可以为低(例如,低于增益阈值)。
在另一方面,例如模型可被配置为基于输出设备的所确定的上下文(诸如正在由输出设备的用户执行的活动)来补偿声音输出。例如,数据结构35可包括被配置为在输出设备的用户正在骑行和收听音乐时优化声音输出的模型(例如,其中该模型包括增益值以增加声音输出的声音水平以便补偿风噪声)。本文描述了被配置为基于输出设备的所确定的上下文来补偿声音输出的模型的更多内容。
上下文引擎29被配置为确定输出设备的上下文,利用该上下文,引擎确定(或选择)一个或多个音量补偿模型以适配输出设备的声音输出(例如,音量)。本文描述了关于使用音量补偿模型来适配声音输出的更多内容。在一个方面,输出设备的“上下文”可以是设备的状态(例如,操作状态、物理状态等)和/或设备的用户的活动或倾向。例如,上下文引擎可以(例如,基于传感器数据、输出设备的设备快照等)执行输出设备的内部分析和/或设备的用户的环境和/或状态(或活动)的外部分析,并且使用该信息(中的至少一些)来确定设备的整体上下文。
在一个方面,上下文引擎可以分析输出设备所处的环境,以确定关于环境的细节(或信息)(这些细节可以指示是否应当调整声音输出的音量水平)。在一个方面,上下文引擎29可以使用从一个或多个传感器31获得的传感器数据来分析输出设备所处的环境。例如,上下文引擎可以确定输出设备(例如,在环境内)的位置。为此,上下文引擎可以接收指示输出设备的(例如,精确的)位置的GPS传感器数据。在另一方面,上下文引擎可基于一个或多个传感器来确定输出设备的位置。例如,上下文引擎可以使用由相机23捕获的图像数据来执行对象识别算法,以识别输出设备所处的位置(例如,识别指示用户和输出设备处于繁忙(且嘈杂)的交叉路口的人行横道和移动的汽车)。又如,在识别树木和长凳时,上下文引擎可以确定输出设备处于通常可以是安静的公园中。在另一方面,上下文引擎可基于由检测器28确定的(以及从该检测器接收的)设备快照来确定位置。例如,快照可以指示正在执行导航应用程序以及输出设备沿当前正在呈现给用户的导航路线的位置。在另一方面,上下文引擎可基于(例如,传感器31的)历史数据来确定位置。例如,上下文引擎可基于指示输出设备(例如,针对阈值天数等)在过去(约)在特定时间在哪个特定位置的历史数据(例如,趋势或模式)来确定输出设备在该特定时间处于该特定位置。例如,历史位置数据可以指示用户和输出设备在下午6点(或前后)在餐厅用餐。在另一方面,与识别位置一起(或代替识别位置),上下文引擎可以识别位置内的对象。如本文所述,使用由相机捕获的图像数据,上下文引擎可以确定哪些对象在环境内。
如本文所述,关于环境的细节可指示是否应当调整声音输出的音量水平。具体地,可以基于至少一些传感器数据来确定环境是否具有环境噪声。例如,上下文引擎可以基于在环境内检测到的活动和/或对象来确定环境内的环境噪声水平。返回关于在繁忙的交叉路口处的先前示例,上下文引擎可基于对由环境内的所识别对象产生的噪声的估计来确定输出设备处于嘈杂环境中。因此,上下文引擎可基于对由所识别的移动的汽车、所识别的开灯的消防车等引起的噪声的估计来确定(或估计)环境噪声水平。
在一些方面中,上下文引擎29可以确定输出设备所处的环境是否包括环境噪声,并且可以确定噪声的噪声水平。例如,上下文引擎可以从麦克风22获得一个或多个麦克风信号,并且可以处理麦克风信号以确定其中包含的环境噪声的噪声水平。在一个方面,噪声水平可以指示环境噪声跨一个或多个频带具有多少频谱内容。例如,该水平可以指示环境噪声包括比高频频谱内容更多的低频频谱内容(例如,高于阈值)。在另一方面,上下文引擎可以确定包含在环境内的环境噪声的类型。例如,上下文引擎可以分析环境噪声以识别噪声的类型,诸如噪声是否包括音乐作品,以及/或者噪声是否包括语音(例如,通过对麦克风信号执行语音活动检测(VAD)算法)。
在另一方面,上下文引擎29可以使用传感器数据来确定输出设备在环境内是静止的还是移动的。例如,上下文引擎可以基于从IMU 25接收的运动数据来确定移动。在另一方面,上下文引擎可基于GPS传感器数据以及/或者基于环境内的改变(例如,如基于由相机23捕获的图像数据内的对象的改变而确定)来确定输出设备正在移动。
在一些方面,上下文引擎可以分析音频信号21以确定其中包含的音频内容。例如,上下文引擎29可以接收控制器20可以用来驱动扬声器26的音频信号21,基于对音频内容的分析来确定由输出设备回放的(例如,当前或将要回放的)音频内容的类型。具体地,引擎可以执行VAD操作以确定音频内容是否包含语音。在另一方面,引擎可以对音频信号执行频谱分析以确定包含在其中的音频内容,诸如音频内容是否为音乐作品,以及该作品的频谱内容(例如,具有比高频谱内容更低的频谱内容等)。在另一方面,上下文引擎可以使用设备快照来确定与音频信号相关的信息,如本文所述。
在一个方面,上下文引擎可被配置为确定输出设备的用户是否正在执行身体活动(例如,当输出设备是用户的一部分或联接到用户时)。具体地,上下文引擎可基于用户输入来确定用户正在执行活动。例如,使用从设备快照检测器28接收的设备快照,上下文引擎可以确定是否正在执行与身体活动相关联的一个或多个软件应用程序。例如,在确定锻炼软件应用程序已经被用户激活(或打开)并且用户已经(例如,经由用户输入32)请求应用程序跟踪锻炼(例如,跑步)时,上下文引擎可以确定用户正在户外慢跑。在另一方面,上下文引擎可以使用日历软件应用程序内的条目来确定用户在特定地点执行特定活动(例如,在嘈杂的体育馆内健身)(这指示用户在一周的特定日子期间的特定时间健身)。
如本文所述,上下文引擎可基于用户输入来确定用户是否正在执行身体活动。在另一方面,上下文引擎可基于对传感器数据和/或设备快照的分析来确定用户是否是活动的。例如,上下文引擎可基于设备快照内的导航信息以及/或者基于位置/运动数据来确定用户正在驾驶汽车。又如,上下文引擎可基于(例如,从GPS传感器、地图/导航软件应用程序等获得的)指示用户在特定餐厅的位置数据来确定用户正在用餐。与位置数据一起,上下文引擎可基于由相机捕获的图像数据(例如,该图像数据可包括对象,诸如盘、叉、水杯等)来确定用户正在用餐。
在另一方面,上下文引擎可以确定用户是否正在执行其他活动,诸如与另一个人交谈。例如,上下文引擎可基于从电话应用程序获得的数据来确定用户是否正在进行电话呼叫。在另一方面,上下文引擎可基于传感器数据来确定用户是否正在进行会话。例如,上下文引擎可基于由加速度计24产生的加速度计信号是否高于阈值来确定用户是否正在讲话。又如,上下文引擎可以确定另一个人是否在相机23的视场内,以及此人是否具有指示此人正在讲话的面部特征(例如,此人的嘴唇是否正在移动)。
在另一方面,上下文引擎可基于(例如,从设备快照获得的)历史数据来确定用户是否正在执行活动。具体地,上下文引擎可基于(例如,重新出现的)历史数据内的一个或多个模式来确定用户正在执行特定的活动。例如,上下文引擎可基于输出设备在过去接收到的指示用户在下午6点至下午9点之间通常在家的位置数据,确定用户在那些时间期间在家。
在一个方面,上下文引擎29可基于本文所述的一个或多个确定来确定输出设备的(例如,整体)上下文。例如,上下文引擎可基于位置数据、用户活动(例如,基于通过导航应用程序接收到步行方向)以及基于噪声水平,在用户(和输出设备)在人行道上向繁忙的交叉路口步行走去时确定上下文。因此,上下文引擎的一个或多个确定可以指示用户和/或输出设备的上下文。在一个方面,在确定上下文时,上下文引擎可被配置为从数据库27中选择与上下文相关联的一个或多个音量补偿模型。本文描述了关于选择一个或多个模型的更多内容。
在一个方面,所确定的输出设备的上下文可以指示应该如何基于环境内的所估计(所确定或所假定)的环境噪声来调整声音输出。返回先前的示例,在确定用户在嘈杂的体育馆中健身或在繁忙的交叉路口时,上下文可以指示存在大量的环境噪声(例如,高于阈值)。相反,在确定用户正坐在公园或家中吃晚餐时,上下文可以指示存在非常少的(低于阈值的)环境噪声。在另一方面,上下文可以指示什么频谱内容也在设备所处的环境中。例如,在确定用户在打开灯和警报器的消防车附近时,上下文可以指示环境具有增加量(例如,高于量值阈值)的中间范围频率内容(例如,在500Hz至1500Hz之间)。
上下文引擎29被配置为基于所确定的输出设备的上下文从音量补偿模型数据库27中确定(或选择)一个或多个音量补偿模型。如本文所述,音量补偿模型可以与输出设备的一个或多个上下文相关联。在这种情况下,上下文引擎可以使用所确定的上下文来执行对数据结构35的表格查找,以选择与所确定的上下文相关联的一个或多个音量补偿模型。在找到具有匹配上下文的模型时,上下文引擎可以选择该模型。在一个方面,模型中的一个或多个模型可以专用于输出设备所处的特定环境。例如,当上下文指示用户旁边有消防车时,该模型可以使警报器的声音的频谱影响最小化。又如,可以针对用户活动来优化模型,诸如具有使用户在骑自行车时对风噪声的感知最小化的音频调节参数。
在另一方面,上下文引擎可基于所确定的上下文从一个或多个音量补偿模型中选择一个或多个音频调节参数。因此,上下文引擎可以混合和匹配来自各种补偿模型的音频调节参数,以便为所确定的上下文创建(或构建)优化的音量补偿模型。
音量补偿器30被配置为从上下文引擎29接收音频信号21和一个或多个所选择的音量补偿模型,并且被配置为根据所选择的音量补偿模型来处理音频信号(例如,适配音频信号的声音输出)。例如,模型可以指示特定的增益值将应用于音频信号(例如,为了增加音频信号的信号水平,由于处于噪声环境中的输出设备的上下文)。因此,补偿器可应用标量增益以增加音频信号的水平,并且可使用经处理的音频信号来驱动扬声器26。
在一个方面,音量补偿器可以根据所选择的音量补偿模型和麦克风信号来处理音频信号。具体地,音量补偿器可以(可选地)获得麦克风信号,并且可以使用麦克风信号将音量补偿模型应用于音频信号。例如,当环境噪声水平超过阈值时,音量补偿器可根据模型处理音频信号。相反,当环境噪声水平下降到阈值以下时,补偿器可以不处理(或可能部分地处理)音频信号。例如,当环境噪声水平下降到阈值以下时,音量补偿器可以调整压缩比和/或标量增益值(例如,由于环境是安静的),但可以保持启动/释放时间。又如,音量补偿器可以测量背景噪声水平,然后动态地调整音量补偿模型的限制器(或压缩器)上的输入增益。另选地,音量补偿器可以(例如,基于所测量的背景噪声水平)调整多频带压缩器上的阈值和增益。
如本文所述,可以在受控环境中预定义(或创建)音量补偿模型。在一些方面,可基于输出设备的用户的收听模式在一段时间内确定(或定义)音量补偿模型。具体地,控制器20可基于用户对基于输出设备的所确定的上下文的声音输出的音量水平的调整来创建音量补偿模型。例如,上下文引擎可以(例如,基于传感器数据)确定用户正在执行身体活动,诸如在户外跑步。上下文引擎还可以确定输出设备已经接收到用户输入以(例如,经由由麦克风22捕获的语音命令)增加音量水平。因此,上下文引擎可以创建具有标量增益值的音量补偿模型以增加声音输出。此外,上下文引擎可基于传感器数据来导出音频调节参数。例如,当用户在跑步时,麦克风可以捕获大量(例如,高于阈值)的风噪声。因此,上下文引擎可以选择优化模型的压缩器的一个或多个音频调节参数,以减小风噪声对声音输出的影响。
在一个方面,控制器20可被配置为基于耦接到控制器的元件执行(附加的)音频信号处理操作。例如,当输出设备包括两个或更多个被布置为将声音输出到声学环境中的“耳外”扬声器而不是被布置为将声音输出到用户耳朵中的扬声器(例如,作为入耳式头戴受话器的扬声器)时,控制器可包括被配置为产生扬声器驱动器信号的声音输出波束形成器,扬声器驱动器信号在驱动两个或更多个扬声器时产生空间选择性声音输出。因此,当用于驱动扬声器时,输出设备可产生可指向环境内的位置的定向波束方向图。
在一些方面,控制器20可包括声音拾取波束形成器,该声音拾取波束形成器可被配置为处理输出设备的两个或更多个外部麦克风产生的音频(或麦克风)信号以形成用于在某些方向上进行空间选择性声音拾取的定向波束方向图(作为一个或多个音频信号),以便对一个或多个声源位置更敏感。在一些方面,该控制器可对包含定向波束方向图的音频信号执行音频处理操作(例如,执行频谱成形)。
在一个方面,上下文相关的AVC操作可以由输出设备执行的音频回放软件应用程序来执行(或与该音频回放软件应用程序的操作相结合)。例如,回放应用程序可被配置为用音频信号21来驱动扬声器26。在一个方面,回放应用程序可响应于用户输入(例如,应用程序使用麦克风信号来检测语音命令以回放音乐作品)而回放音频信号。因此,当回放音频信号时,回放应用程序可以执行控制器20的操作块的AVC操作,如本文所述,以便根据输出设备的上下文(例如,环境、用户活动、音频内容等)来适配声音输出。
图4和图5是分别包括可以由输出设备3(例如,其控制器20)执行的过程40和过程50的流程图。在另一方面,操作中的至少一些操作可以由正在由设备(例如,设备的控制器)执行的一个或多个软件应用程序(例如,音频回放软件应用程序)执行。
图4是根据一个方面的用于执行上下文相关的AVC的过程40的流程图。该过程开始于控制器获得(或接收)包括音频内容诸如音乐作品、播客等的音频信号(例如,信号21,如图2所示)(在框41处)。控制器使用一个或多个麦克风来获得包括电子设备所处的环境的音频(例如,环境噪声)的麦克风信号(在框42处)。控制器确定输出设备的上下文(在框43处)。例如,当设备的用户正在跑步时,上下文引擎29可以将上下文确定为输出设备在嘈杂的交叉路口处。又如,当设备的用户正在阅读书籍时,上下文引擎可以确定输出设备处于安静的房间中。这种确定可基于来自一个或多个传感器31的传感器数据以及/或者基于所确定的设备快照。图5描述了关于确定上下文的更多内容。
控制器20基于所确定的上下文从(例如,存储在数据库27内的数据结构35中的)若干音量补偿模型中选择音量补偿模型(在框44处)。具体地,如本文所述,控制器基于一个或多个传感器31的传感器数据、设备快照和/或音频信号的音频内容来确定音量补偿器的一个或多个音频调节参数。如本文所述,模型中的每一个(或至少一些)模型可以与一个或多个上下文相关联。因此,上下文引擎29可以执行查找数据结构35的表,以选择与所确定的上下文相关联的模型。控制器根据所选择的音量补偿模型和麦克风信号来处理音频信号(在框45处)。具体地,控制器使用音量补偿器30根据音量补偿模型的一个或多个音频调节参数来处理音频信号。在一个方面,音量补偿器可以使用麦克风信号来确定如何将音量补偿模型应用于音频信号。例如,音量补偿器可基于包含在麦克风信号中的噪声的音频噪声水平来调整(或应用)一个或多个音频调节参数。特别地,当噪声水平改变(例如,与其中包含的频谱内容一起),补偿器可以调整模型的相关联的压缩器的压缩比。因此,补偿器可以根据环境的噪声水平来调整音频信号的动态范围。控制器使用经处理的音频信号来驱动输出设备的一个或多个扬声器(在框46处)。
一些方面可执行过程40的变型。例如,特定操作可不以所示出和所描述的确切顺序执行。可不在连续的一系列操作中执行该特定操作,并且可在不同方面中执行不同的特定操作。例如,输出设备可以使用所获得的音频信号来驱动一个或多个扬声器,同时由控制器执行操作中的至少一些操作。具体地,一旦获得音频信号,控制器就可以在框42至框46(至少一些框)中执行操作,而输出设备使用音频信号来驱动该信号。一旦信号被处理,在框45处,控制器就可以使用经处理的信号来驱动扬声器,如本文所述。
如本文所述,控制器接收音频信号21,并且根据所选择的模型来处理音频信号。在另一方面,控制器可以接收多个(一个或多个)音频信号。例如,控制器可以接收与音频回放应用程序相关联的一个音频信号(例如,包含音乐作品)和与导航应用程序相关联的另一音频信号(例如,包含口头导航指令)。在这种情况下,控制器可基于所确定的上下文不同地处理音频信号。例如,控制器可以确定输出设备的用户正在与音频回放应用程序进行交互(例如,寻找新的音乐作品以供回放)。因此,控制器可以确定相比于导航应用程序的音频内容,用户对音频回放应用程序的音频内容更感兴趣。作为响应,控制器可以为每个音频信号选择不同的音量补偿模型,其中音量补偿器根据其相关的模型来处理每个音频信号。一旦被处理,音量补偿器就可以(例如,通过执行矩阵混合操作)混合音频信号以供回放。因此,在该示例中,音频回放应用程序的音频内容可具有比导航应用程序的音频内容更高的音量水平。在另一方面,代替为每个信号选择不同的模型,音量补偿器可以根据一个模型(例如,通过对一个信号而不是另一个信号执行一些音频信号处理操作)不同地处理信号。
在另一方面,控制器可以在使用音频信号来驱动扬声器时(例如,连续地)执行这些操作中的至少一些操作。因此,控制器可以连续地确定输出设备的上下文是否已经改变。例如,控制器可以执行过程40以将输出设备的上下文确定为用户在户外跑步。作为响应,控制器可以选择音量补偿模型(或一个或多个调节参数),并且根据模型来处理音频信号。控制器可以连续地监测数据(例如,传感器数据、设备快照数据等)以确定上下文是否已经改变。继续先前的示例,控制器可基于传感器数据(例如,IMU数据的减少)并且基于设备快照(例如,指示用户已完成室外跑步健身的锻炼软件应用程序等)来确定用户不再在室外跑步。此外,控制器可以(例如,基于本文所述的数据)确定用户正坐在安静的房间内。作为确定对上下文的改变(或确定新的上下文)的结果,控制器可以根据改变的上下文来执行过程40的至少一些操作。例如,控制器可以基于改变的上下文来选择不同的音量补偿模型(例如,不同的音频调节参数)。例如,由于用户坐在安静的房间中,因此可以减小所应用的标量增益值。然后,控制器可以根据不同的模型(和麦克风信号)处理音频信号。
图5是根据一个方面的用于确定输出设备的上下文的过程50的流程图。具体地,在该过程中描述的操作可以由输出设备的控制器20执行。该过程开始于控制器20从一个或多个传感器(例如,图2的传感器31)接收传感器数据,该一个或多个传感器被布置为感测输出设备所处的环境的状况(在框51处)。控制器确定包括正在由输出设备执行的一个或多个软件应用程序中的每一个软件应用程序的当前状态的设备快照(在框52处)。例如,设备快照可包括一个或多个软件应用程序的当前状态(例如,正在执行的一个或多个操作),该当前状态可包括回放软件应用程序的快照(该回放软件应用程序可正在执行上下文相关的AVC操作中的一个或多个上下文相关的AVC操作,如本文所述)。控制器基于设备快照、所获得的音频信号的音频内容和/或传感器数据来确定输出设备的上下文(在框53处)。例如,设备的上下文可以是设备的用户正在户外慢跑,这基于在设备上执行的锻炼应用程序并且基于位置(例如,GPS)数据。
一些方面可执行过程50的变型。例如,特定操作可不以所示出和所描述的确切顺序执行。可不在连续的一系列操作中执行该特定操作,并且可在不同方面中执行不同的特定操作。在一个方面,可基于较少的数据(例如,仅基于设备快照)来确定上下文。例如,上下文引擎可基于先前确定的用户的饮食模式来确定(例如,在确定的范围内)用户正在吃晚餐。
如上所述,输出设备可被配置为执行上下文相关的AVC操作,以便调整声音输出的音量水平。在一个方面,当设备的用户无法手动调整音量水平时,输出设备可执行此类操作。具体地,输出设备可以不包括(例如,硬件)音量控件,该音量控件被布置为调整输出设备的一个或多个扬声器的声音输出水平。因此,输出设备可基于输出设备的上下文动态地且自动地补偿音量水平,使得收听者保持最佳的用户体验,而不管用户和设备在什么上下文中。
根据本公开的一个方面,一种电子设备,该电子设备包括处理器和具有指令的存储器,这些指令在由处理器执行时使得电子设备获得包括音频内容的音频信号;从被布置为感测电子设备所处的环境的状况的一个或多个传感器获得传感器数据;确定包括正在由电子设备执行的一个或多个软件应用程序中的每一个软件应用程序的当前状态的设备快照,其中正在执行的一个或多个软件应用程序包括音频回放软件应用程序;基于传感器数据、一个或多个软件应用程序的快照,以及音频信号的音频内容来确定音量补偿器的至少一个音频调节参数;使用音量补偿器,根据所确定的音频调节参数来处理音频信号;以及使用经处理的音频信号来驱动一个或多个扬声器。
众所周知,使用个人可识别信息应遵循公认为满足或超过维护用户隐私的行业或政府要求的隐私政策和做法。具体地,应管理和处理个人可识别信息数据,以使无意或未经授权的访问或使用的风险最小化,并应当向用户明确说明授权使用的性质。
如前所述,本公开的一个方面可为其上存储有指令的非暂态机器可读介质(诸如微电子存储器),这些指令对一个或多个数据处理部件(在此通常称为“处理器”)进行编程以执行网络操作、上下文相关的AVC操作和(其他)音频信号处理操作,如本文所描述。在其他方面,可通过包含硬连线逻辑的特定硬件部件来执行这些操作中的一些操作。另选地,可通过所编程的数据处理部件和固定硬连线电路部件的任何组合来执行那些操作。
在一个方面,电子设备的上下文基于来自电子设备的一个或多个传感器的传感器数据,该一个或多个传感器包括全球定位系统(GPS)传感器、相机、麦克风、热敏电阻、惯性测量单元(IMU)和加速度计。在一些方面,电子设备的上下文是电子设备的位置。在另一方面,设备确定对电子设备的上下文的改变;基于对上下文的改变从多个音量补偿模型中选择不同的音量补偿模型;以及根据所选择的不同音量补偿模型和麦克风信号来处理音频信号。在一些方面,每个音量补偿模型包括以下至少一者:1)待应用于音频信号的一个或多个标量增益值,2)宽带压缩器或多频带压缩器,3)压缩比,4)用于应用压缩比的宽带压缩器或多频带压缩器的启动时间,以及5)用于移除压缩比的宽带压缩器或多频带压缩器的释放时间。在另一方面,根据所选择的音量补偿模型和麦克风信号来处理音频信号包括使用所选择的音量补偿模型来针对环境的音频补偿音频信号。在一个方面,电子设备为便携式设备。在另一方面,电子设备为可穿戴设备。在一些方面,可穿戴设备为一副智能眼镜、或智能手表。
虽然已经在附图中描述和示出了某些方面,但是应当理解,此类方面仅仅是对广义公开的说明而非限制,并且本公开不限于所示出和所述的具体结构和布置,因为本领域的普通技术人员可以想到各种其他修改型式。因此,要将描述视为示例性的而非限制性的。
在一些方面,本公开可包括语言例如“[元素A]和[元素B]中的至少一者”。该语言可以是指这些元素中的一者或多者。例如,“A和B中的至少一者”可以是指“A”、“B”、或“A和B”。具体地,“A和B中的至少一者”可以是指“A中至少一者和B中至少一者”或者“至少A或B任一者”。在一些方面,本公开可包括语言,例如“[元素A]、[元素B]和/或[元素C]”。该语言可以是指这些元素中任一者或其任何组合。例如,“A、B和/或C”可以是指“A”、“B”、“C”、“A和B”、“A和C”、“B和C”或“A、B和C”。
Claims (22)
1.一种由电子设备的一个或多个经编程的处理器执行的方法,所述方法包括:
获得音频信号;
使用一个或多个麦克风获得包括所述电子设备所处的环境的音频的麦克风信号;
确定所述电子设备的上下文;
基于所确定的上下文从多个音量补偿模型中选择音量补偿模型;
根据所选择的音量补偿模型和所述麦克风信号来处理所述音频信号;以及
使用经处理的音频信号来驱动所述电子设备的一个或多个扬声器。
2.根据权利要求1所述的方法,其中基于所述音频信号的音频内容来确定所述电子设备的所述上下文。
3.根据权利要求2所述的方法,其中,
当所述音频内容不包括语音时,所选择的音量补偿模型包括用于压缩所述音频信号的整个频率范围的宽带压缩器,并且
当所述音频内容包括语音时,所选择的音量补偿模型包括用于压缩所述音频信号的所述整个频率范围的一个或多个频带的子集的多频带压缩器。
4.根据权利要求1所述的方法,其中所述电子设备的所述上下文包括所述电子设备的所述经编程的处理器正在执行一个或多个软件应用程序的指示。
5.根据权利要求4所述的方法,其中所述音频信号与所述一个或多个软件应用程序中的正与所述电子设备的用户交互的软件应用程序相关联。
6.根据权利要求1所述的方法,其中所述电子设备的所述上下文包括所述电子设备的用户的活动。
7.根据权利要求6所述的方法,其中所述用户的所述活动包括以下中的至少一者:所述用户与所述电子设备之间的交互,以及当所述电子设备是所述用户的一部分或联接到所述用户时由所述用户执行的身体活动。
8.根据权利要求1所述的方法,其中所述一个或多个扬声器被集成在所述电子设备内,其中所述电子设备不包括被布置为调整所述电子设备的所述一个或多个扬声器的声音输出水平的硬件音量控件。
9.一种电子设备,包括:
一个或多个麦克风;
一个或多个扬声器;
一个或多个处理器;以及
存储器,所述存储器中存储有指令,所述指令在由所述一个或多个处理器执行时使所述电子设备:
获得音频信号,
使用所述一个或多个麦克风获得包括所述电子设备所处的环境的音频的麦克风信号,
确定所述电子设备的上下文,
基于所确定的上下文从多个音量补偿模型中选择音量补偿模型,
根据所选择的音量补偿模型和所述麦克风信号来处理所述音频信号,以及
使用经处理的音频信号来驱动所述一个或多个扬声器。
10.根据权利要求9所述的电子设备,其中基于所述音频信号的音频内容来确定所述电子设备的所述上下文。
11.根据权利要求10所述的电子设备,其中:
当所述音频内容不包括语音时,所选择的音量补偿模型包括用于压缩所述音频信号的整个频率范围的宽带压缩器,并且
当所述音频内容包括语音时,所选择的音量补偿模型包括用于压缩所述音频信号的所述整个频率范围的一个或多个频带的子集的多频带压缩器。
12.根据权利要求9所述的电子设备,其中所述电子设备的所述上下文包括所述电子设备正在执行一个或多个软件应用程序的指示。
13.根据权利要求12所述的电子设备,其中所述音频信号与所述一个或多个软件应用程序中的正与所述电子设备的用户交互的软件应用程序相关联。
14.根据权利要求9所述的电子设备,其中所述电子设备的所述上下文包括所述电子设备的用户的活动。
15.根据权利要求14所述的电子设备,其中所述用户的所述活动包括以下中的至少一者:所述用户与所述电子设备之间的交互,以及当所述电子设备是所述用户的一部分或联接到所述用户时由所述用户执行的身体活动。
16.根据权利要求9所述的电子设备,其中所述一个或多个扬声器被集成在所述电子设备内,其中所述电子设备不包括被布置为调整所述电子设备的所述一个或多个扬声器的声音输出水平的硬件音量控件。
17.一种由音频回放软件应用程序执行的方法,所述音频回放软件应用程序由电子设备的一个或多个经编程的处理器执行,所述方法包括:
获得包括音频内容的音频信号;
从被布置为感测所述电子设备所处的环境的状况的一个或多个传感器获得传感器数据;
确定包括正在由所述电子设备执行的一个或多个软件应用程序中的每一个软件应用程序的当前状态的设备快照,其中正在执行的所述一个或多个软件应用程序包括所述音频回放软件应用程序;
基于所述传感器数据、所述一个或多个软件应用程序的所述快照,以及所述音频信号的所述音频内容来确定音量补偿器的至少一个音频调节参数;
使用所述音量补偿器,根据所确定的音频调节参数来处理所述音频信号;以及
使用经处理的音频信号来驱动一个或多个扬声器。
18.根据权利要求17所述的方法,其中所述一个或多个软件应用程序中的每一个软件应用程序的所述当前状态指示当前正在由所述电子设备执行的所述软件应用程序中的至少一个软件应用程序、所述电子设备的用户是否正在与软件应用程序进行交互,以及所述音频信号的所述音频内容是否与所述软件应用程序相关联。
19.根据权利要求17所述的方法,其中所述设备快照是包括正在由所述电子设备执行的软件应用程序的第一状态的第一设备快照,并且其中所述方法还包括
确定包括所述软件应用程序的不同于所述第一状态的第二状态的第二设备快照;
至少基于所述软件应用程序的所述第二状态来确定不同的音频调节参数;以及
根据所确定的不同音频调节参数来处理所述音频信号。
20.根据权利要求17所述的方法,其中确定所述至少一个音频调节参数包括确定
将要应用于所述音频信号的所述音量补偿器的标量增益值,以及
所述音量补偿器要压缩所述音频信号的压缩比、启动时间和释放时间。
21.根据权利要求17所述的方法,其中所述一个或多个传感器包括全球定位系统(GPS)传感器、相机、加速度计、热敏电阻、惯性测量单元(IMU)和麦克风中的至少一者。
22.根据权利要求17所述的方法,其中所述电子设备为可穿戴设备。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163248342P | 2021-09-24 | 2021-09-24 | |
US63/248,342 | 2021-09-24 | ||
US17/818,652 US20230099275A1 (en) | 2021-09-24 | 2022-08-09 | Method and system for context-dependent automatic volume compensation |
US17/818,652 | 2022-08-09 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115866489A true CN115866489A (zh) | 2023-03-28 |
Family
ID=85661136
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211165579.8A Pending CN115866489A (zh) | 2021-09-24 | 2022-09-23 | 用于上下文相关的自动音量补偿的方法和系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230099275A1 (zh) |
CN (1) | CN115866489A (zh) |
-
2022
- 2022-08-09 US US17/818,652 patent/US20230099275A1/en active Pending
- 2022-09-23 CN CN202211165579.8A patent/CN115866489A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230099275A1 (en) | 2023-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10817251B2 (en) | Dynamic capability demonstration in wearable audio device | |
EP3081011B1 (en) | Name-sensitive listening device | |
US9774979B1 (en) | Systems and methods for spatial audio adjustment | |
US20200401369A1 (en) | Conversation assistance audio device personalization | |
CN109155135B (zh) | 用于降噪的方法、装置和计算机程序 | |
CN113905320B (zh) | 为考虑语音检测而调节声音回放的方法和系统 | |
US10922044B2 (en) | Wearable audio device capability demonstration | |
TW202209901A (zh) | 用於聲學透通的系統、裝置和方法 | |
JP2023525138A (ja) | アクティブノイズキャンセリング方法および装置 | |
CN112312297A (zh) | 音频带宽减小 | |
CN113038337B (zh) | 一种音频播放方法、无线耳机和计算机可读存储介质 | |
US20230143588A1 (en) | Bone conduction transducers for privacy | |
US20230099275A1 (en) | Method and system for context-dependent automatic volume compensation | |
WO2019199536A1 (en) | Applying audio technologies for the interactive gaming environment | |
US20230113703A1 (en) | Method and system for audio bridging with an output device | |
US11877133B2 (en) | Audio output using multiple different transducers | |
US20230421945A1 (en) | Method and system for acoustic passthrough | |
US20230008865A1 (en) | Method and system for volume control | |
US11809774B1 (en) | Privacy with extra-aural speakers | |
CN117119341A (zh) | 用于估计环境噪声衰减的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |