CN104781875B

CN104781875B - 音频环境分类的系统和方法

Info

Publication number: CN104781875B
Application number: CN201380058948.6A
Authority: CN
Inventors: 里昂纳德·亨利·葛罗科普
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2012-11-14
Filing date: 2013-10-25
Publication date: 2016-11-02
Anticipated expiration: 2033-10-25
Also published as: WO2014078060A1; EP2920784A1; KR101678555B1; CN104781875A; US20140133663A1; US9124981B2; TW201434032A; KR20150084941A

Abstract

本发明揭示分类音频环境的系统和方法。在一个实施例中，一种分类音频环境的方法包括根据第一时间间隔对所述音频环境进行取样以获得经取样音频数据，计算所述经取样音频数据的特征，根据第二时间间隔从所述经取样音频数据的所述特征中推断音频群集标识符，以及根据第三时间间隔使用所述经取样音频数据的所述特征更新音频环境模型。

Description

音频环境分类的系统和方法

技术领域

本发明涉及无线通信领域。明确地说，本发明涉及音频环境分类的系统和方法。

背景技术

可将低功率始终接通音频环境分类设想为用于智能手机的情境感知应用的启用程序。虽然已试图促进监督(即，预先训练的)音频分类，但此监督音频分类的执行可能被混淆，这是因为给定周围音频环境的正确语义标签可能常常为用户特定的。举例来说，一个人的家里的周围环境可能听起来好像另一个人的办公室的周围环境。另外，常规音频分类方法可为计算上密集的，从而使得此类方法不适于以低功率始终接通方式来实施。关于常规音频分类方法的另一个问题是对隐私的关注，这是因为可存储原始音频样本。

发明内容

一种根据本发明的分类音频环境的方法的实例包含根据第一时间间隔对所述音频环境进行取样以获得经取样音频数据，计算所述经取样音频数据的特征，根据第二时间间隔从经取样音频数据的所述特征推断音频群集标识符，以及根据第三时间间隔使用经取样音频数据的所述特征更新音频环境模型。

所述方法的实施方案可包含以下特征中的一者或一者以上。计算所述经取样音频数据的特征可包含计算多个梅尔频率倒谱系数(mel-frequency ceptral coefficient；MFCC)，在所述第一时间间隔内使用所述多个MFCC产生对MFCC数据的统计的连续估计，以及存储对MFCC数据的统计的所述连续估计。产生对MFCC数据的统计的连续估计可包含将所述多个MFCC加到与所述音频环境的所述多个MFCC的平均值成比例的估计，以及将所述多个MFCC的平方加到与所述音频环境的所述多个MFCC的方差成比例的估计。推断所述音频群集标识符可包含读取对MFCC数据的统计的所述连续估计、先前所存储的音频环境模型和先前所确定的音频环境概率分布；使用对MFCC数据的统计的所述连续估计、所述先前所存储的音频环境模型和所述先前所确定的音频环境概率分布计算当前音频环境概率分布；用所述当前音频环境概率分布替换所述先前所确定的音频环境概率分布；根据所述当前音频环境概率分布推断当前音频群集标识符；以及将对MFCC数据的统计的所述连续估计存储为MFCC统计。更新所述音频环境模型可包含读取所述MFCC统计，使用所述MFCC统计更新所述音频环境模型，以及将所述音频环境模型存储在存储装置中。对所述音频环境进行取样可在20毫秒到30毫秒之间的持续时间内执行，推断所述音频群集标识符可在1毫秒到100毫秒之间的持续时间内执行，且更新所述音频环境模型可在1分钟到20分钟之间的持续时间内执行。第一时间间隔可实质上比第二时间间隔短，且第二时间间隔可实质上比第三时间间隔短。第一时间间隔可在0.5秒到3秒之间，第二时间间隔可在30秒到120秒之间，且第三时间间隔可在6小时到24小时之间。音频群集标识符可表示周围音频环境。

一种根据本发明的分类音频环境的设备的实例包含存储器单元；处理器，所述处理器经编程以进行以下操作：根据第一时间间隔对所述音频环境进行取样以获得经取样音频数据；计算所述经取样音频数据的特征；根据第二时间间隔从经取样音频数据的所述特征推断音频群集标识符，以便将所述音频群集标识符存储在所述存储器单元中；以及根据第三时间间隔使用经取样音频数据的所述特征更新音频环境模型。

所述设备的实施方案可包含以下特征中的一者或一者以上。所述处理器可经编程以进行以下操作：计算多个梅尔频率倒谱系数(MFCC)，在所述第一时间间隔内使用所述多个MFCC产生对MFCC数据的统计的连续估计，以及将对MFCC数据的统计的所述连续估计存储在所述存储器模块中。所述处理器可经配置以将所述多个MFCC加到与所述音频环境的所述多个MFCC的平均值成比例的估计，以及将所述多个MFCC的平方加到与所述音频环境的所述多个MFCC的方差成比例的估计。所述处理器也可经配置以进行以下操作：读取对MFCC数据的统计的所述连续估计、先前所存储的音频环境模型和先前所确定的音频环境概率分布；使用对MFCC数据的统计的所述连续估计、所述先前所存储的音频环境模型和所述先前所确定的音频环境概率分布计算当前音频环境概率分布；用所述当前音频环境概率分布替换所述先前所确定的音频环境概率分布；根据所述当前音频环境概率分布推断当前音频群集标识符；以及将对MFCC数据的统计的所述连续估计存储为MFCC统计。所述处理器也可经编程以读取所述MFCC统计，使用所述MFCC统计更新所述音频环境模型，以及将所述音频环境模型存储在所述存储器单元中。可在20毫秒到30毫秒之间的持续时间内对所述音频环境进行取样，可在1毫秒到100毫秒之间的持续时间内推断所述音频群集标识符，且可在1分钟到20分钟之间的持续时间内更新所述音频环境模型。第一时间间隔可实质上比第二时间间隔短，且第二时间间隔实质上比第三时间间隔短。所述处理器可经编程以使得第一时间间隔在0.5秒到3秒之间，第二时间间隔在30秒到120秒之间，且第三时间间隔在6小时到24小时之间。所述处理器可经编程以指示所述音频群集标识符表示周围音频环境。

一种根据本发明的计算机程序产品的实例驻留在处理器可执行计算机存储媒体上且包含处理器可执行指令，所述处理器可执行指令经配置以致使处理器进行以下操作：根据第一时间间隔对音频环境进行取样以获得经取样音频数据，计算所述经取样音频数据的特征，根据第二时间间隔从经取样音频数据的所述特征推断音频群集标识符，以及根据第三时间间隔使用经取样音频数据的所述特征更新音频环境模型。

所述计算机程序产品的实施方案可包含以下特征中的一者或一者以上。指令经配置以致使所述处理器进行以下操作：计算多个梅尔频率倒谱系数(MFCC)，在所述第一时间间隔内使用所述多个MFCC产生对MFCC数据的统计的连续估计，以及将对MFCC数据的统计的所述连续估计存储在存储器模块中。指令经配置以致使所述处理器将所述多个MFCC加到与所述音频环境的所述多个MFCC的平均值成比例的估计，以及将所述多个MFCC的平方加到与所述音频环境的所述多个MFCC的方差成比例的估计。指令经配置以致使所述处理器进行以下操作：读取对MFCC数据的统计的所述连续估计、先前所存储的音频环境模型和先前所确定的音频环境概率分布；使用对MFCC数据的统计的所述连续估计、所述先前所存储的音频环境模型和所述先前所确定的音频环境概率分布计算当前音频环境概率分布；用所述当前音频环境概率分布替换所述先前所确定的音频环境概率分布；根据所述当前音频环境概率分布推断当前音频群集标识符；以及将对MFCC数据的统计的所述连续估计存储为MFCC统计。指令经配置以致使所述处理器读取所述MFCC统计，使用所述MFCC统计更新所述音频环境模型，以及存储所述音频环境模型。指令经配置以致使所述处理器在20毫秒到30毫秒之间的持续时间内对所述音频环境进行取样，在1毫秒到100毫秒之间的持续时间内推断所述音频群集标识符，以及在1分钟到20分钟之间的持续时间内更新所述音频环境模型。指令指示：第一时间间隔实质上比第二时间间隔短，且第二时间间隔实质上比第三时间间隔短。指令指示：第一时间间隔在0.5秒到3秒之间，第二时间间隔在30秒到120秒之间，且第三时间间隔在6小时到24小时之间。指令致使所述处理器推断可表示周围音频环境的所述音频群集标识符。

一种根据本发明的用移动装置分类音频环境的设备的实例包含：用于根据第一时间间隔对所述音频环境进行取样以获得经取样音频数据的装置；用于计算所述经取样音频数据的特征的装置；用于根据第二时间间隔从经取样音频数据的所述特征推断音频群集标识符的装置；以及用于根据第三时间间隔使用经取样音频数据的所述特征更新音频环境模型的装置。

所述设备的实施方案可包含以下特征中的一者或一者以上。用于计算多个梅尔频率倒谱系数(MFCC)的装置，用于在所述第一时间间隔内使用所述多个MFCC产生对MFCC数据的统计的连续估计的装置，以及用于存储对MFCC数据的统计的所述连续估计的装置。用于产生对MFCC数据的统计的连续估计的所述装置可包含用于将所述多个MFCC加到与所述音频环境的所述多个MFCC的平均值成比例的估计的装置，以及用于将所述多个MFCC的平方加到与所述音频环境的所述多个MFCC的方差成比例的估计的装置。用于推断所述音频群集标识符的所述装置可包含：用于读取对MFCC数据的统计的所述连续估计、先前所存储的音频环境模型和先前所确定的音频环境概率分布的装置；用于使用对MFCC数据的统计的所述连续估计、所述先前所存储的音频环境模型和所述先前所确定的音频环境概率分布计算当前音频环境概率分布的装置；用于用所述当前音频环境概率分布替换所述先前所确定的音频环境概率分布的装置；用于根据所述当前音频环境概率分布推断当前音频群集标识符的装置；以及用于将对MFCC数据的统计的所述连续估计存储为MFCC统计的装置。用于更新所述音频环境模型的所述装置可包含用于读取所述MFCC统计的装置；用于使用所述MFCC统计更新所述音频环境模型的装置；以及用于将所述音频环境模型存储在存储装置中的装置。对所述音频环境进行取样可在20毫秒到30毫秒之间的持续时间内执行，推断所述音频群集标识符可在1毫秒到100毫秒之间的持续时间内执行，且更新所述音频环境模型可在1分钟到20分钟之间的持续时间内执行。一般来说，第一时间间隔实质上比第二时间间隔短，且第二时间间隔实质上比第三时间间隔短。第一时间间隔可在0.5秒到3秒之间，第二时间间隔可在30秒到120秒之间，且第三时间间隔可在6小时到24小时之间。

本文中所描述的项目和/或技术可提供以下能力中的一者或一者以上，以及未提及的其它能力。可将由用户的智能手机俘获的音频数据群集成相异的周围环境。用户的隐私可得到维护，这是因为并不需要存储所俘获的音频剪辑。可对不同时间刻度执行三种独立服务且能够进行工作循环以节省功率。特征计算服务可对以秒计的时间刻度操作。推断服务/引擎可对以分钟计的时间刻度操作。模型更新服务可对以小时数或天数计的时间刻度操作。可提供其它能力且并非根据本发明的每个实施方案均必须提供所论述的能力中的任一者，更不用说全部了。另外，可能有可能通过除所注释的装置之外的装置来实现上文所注释的效应，且所注释的项目/技术可能未必产生所注释的效应。

附图说明

在阅读结合以下图式进行的本发明的实施例的详细描述之后，本发明的前述特征和优点以及本发明的额外特征和优点将更清楚地得以理解。

图1为移动计算装置的组件的框图。

图2A和2B说明根据本发明的一些方面的音频环境的示范性分类。

图3为展示根据本发明的一些方面的分类音频环境的方法的示范性流程图。

图4说明根据本发明的一些方面的用以群集音频环境数据的示范性模型。

图5为展示根据本发明的一些方面的分类音频环境的过程的另一示范性流程图。

图6说明根据本发明的一些方面的数据获取和特征计算的示范性时间映射。

图7说明根据本发明的一些方面的环境推断的示范性时间映射。

图8说明根据本发明的一些方面的更新音频环境模型的示范性时间映射。

具体实施方式

揭示分类音频环境的实施例。呈现以下描述以使得任何所属领域的技术人员能够制造及使用本发明。仅作为实例来提供特定实施例和应用的描述。本文中所描述的实例的各种修改和组合对所属领域的技术人员将是容易显而易见的，且本文中所定义的一般原理可在不偏离本发明的精神或范围的情况下应用于其它实例和应用。因此，本发明不希望被限制于所描述及所展示的实例，而应被符合与本文中所揭示的原理和特征相一致的最广范围。

参看图1，实例移动装置100包含无线收发器121，其经由无线天线122在无线网络上发送及接收无线信号123。收发器121通过无线收发器总线接口120连接到总线101。虽然在图1中展示为相异组件，但无线收发器总线接口120也可为无线收发器121的一部分。此处，将移动装置100说明为具有单个无线收发器121。然而，移动装置100或者可具有多个无线收发器121和无线天线122以支持多个通信标准，例如WiFi、码分多址(CDMA)、宽带CDMA(WCDMA)、长期演进(LTE)、蓝牙等。

也可利用通用处理器111、存储器140、数字信号处理器(DSP)112和/或专用处理器(未图示)来完全地或部分地处理无线信号123或音频输入信号。对来自无线信号123的信息的存储是使用存储器140或寄存器(未图示)来执行。虽然在图1中仅展示一个通用处理器111、DSP 112和存储器140，但移动装置100可使用这些组件中的任一者中的一个以上者。通用处理器111和DSP 112直接地或通过总线接口110连接到总线101。另外，存储器140直接地或通过总线接口150连接到总线101。在实施时，总线接口110可与以下各者集成或独立于以下各者：与总线接口相关联的通用处理器111、DSP 112和/或存储器140。

存储器140包含非暂时性计算机可读存储媒体(或多个媒体)，其将功能存储为一个或一个以上指令或代码。可构成存储器140的媒体包含(但不限于)RAM、ROM、闪存、磁盘驱动器等。由存储器140存储的功能由通用处理器111、专用处理器或DSP 112来执行。因此，存储器140为存储软件代码(程序码、指令等)的处理器可读存储器和/或计算机可读存储器，其经配置以致使处理器111和/或DSP 112执行所描述的功能。或者，可完全地或部分地在硬件中执行移动装置100的一个或一个以上功能。

移动装置100进一步包含麦克风135，其俘获在移动装置100附近的周围音频。虽然此处移动装置100包含一个麦克风135，但可使用多个麦克风135，例如麦克风阵列、双通道立体声麦克风等。如果由移动装置100来实施，那么多个麦克风135可独立地或独立于彼此操作。麦克风135独立地或通过总线接口110连接到总线101。举例来说，麦克风135可通过总线101与DSP 112通信以便处理由麦克风135俘获的音频。麦克风135另外可与通用处理器111和/或存储器140通信以产生或以其它方式获得与所俘获音频相关联的元数据。

参看图2A，展示音频环境200的示范性分类。音频环境群集可表示在移动装置100周围发生的不同位置和活动。主要实例为基于经由麦克风135检测到的声音推断音频环境群集。例如加速度计、光检测器和位置确定功能等其它传感器可用以帮助推断音频环境群集。第一示范性分类200包含表示音频环境群集的垂直轴202，和表示时间的水平轴204。所揭示的系统和方法可通过聚集例如语音、人群、单独、键入、时刻、运动状态和其它相关音频推断等推断基于音频环境来推断情形。在此实例中，所推断的情形可包含会议群集206、固定电话群集208、单独工作群集210、驾驶群集212，以及睡眠群集214。应注意，情形推断方法可用以通过聚集在适当时间段内的驾驶推断来增强基于运动的驾驶检测。

参看图2B，展示基于时刻的音频环境250的示范性分类。在实施例中，移动装置100可检测在一天当中的音频环境。可将检测事件的结果与先前所存储的模型相比较且可推断活动标签。在分类图250中，垂直轴252表示状态且水平轴254表示时刻。可基于先前所存储的模型来推断实例分类。作为实例，且并非限制，模型包含可进行推断的情形的活动标签，包含家务杂事群集、单独工作群集、通勤群集、接通固定电话群集、锻炼群集、与其它人谈话群集、吃群集以及观看电视群集。也可推断其它群集，且可扩展模型以包含基于用户的活动和对应声学及可能的其它感观输入的更多活动标签。

参看图3，展示使用移动装置100分类音频环境的方法300的示范性流程图。然而，方法300仅为示范性的且并非限制性的。可(例如)通过添加、去除或重新布置多个阶段来变更方法300。

在实施例中，方法300保护用户的隐私，这是因为周围音频环境的原始样本并不持续存在于长期存储器中。方法300也可通过例如以下各者等特征实现低功率始终接通实施方案：能够进行工作循环的音频取样和特征计算；依据少量足够统计进行的当前周围音频环境的特性化；在短暂周期内将处理器唤醒以执行音频推断；以及偶尔且不失时机地执行计算上密集的模型更新(例如，在装置正充电时)。

根据本发明的多个方面，所述方法包含使用处理器111执行三种服务，即，特征计算服务302、推断引擎304和音频模型环境更新服务306。应注意，每一种服务可以能够进行工作循环方式来执行以使功率消耗最小化。每一服务可对不同时间刻度操作。

在一个示范性实施方案中，特征计算服务302对以秒计的时间刻度操作。在阶段308处，移动装置100上的处理器111可执行指令以在工作循环内激活音频接收链。作为实例，工作循环(例如，T_ON+T_OFF)包含工作(例如，T_ON)状态，其中持续时间大约在500毫秒(ms)到3000毫秒的范围内。当在工作周期期间激活音频链时，在阶段310处，服务302可指示移动装置接通音频子系统(其可包含麦克风135和(多个)处理器)，且对大约20ms到30ms的音频数据进行取样。在实例中，取样频率(f_s)为大约16Hz。

在阶段312处，处理器111和DSP 112可计算13个梅尔频率倒谱系数(MFCC)。在实例中，MFCC是基于30ms音频帧。接着在阶段314处更新MFCC统计(例如，平均值和方差)且存储所述MFCC统计。通常，在阶段314处用于进行连续估计的存储器为易失性存储器。举例来说，比较服务302将MFCC统计值加到对当前音频环境的MFCC的平均值的连续估计，且将这些值的平方加到对当前音频环境的MFCC的方差的连续估计。这些值每一MFCC通常需要2个字节的存储器，其中对于平均值来说需要总共26B且对于方差来说需要总共26B。因此，所使用的总的存储器为52B。音频子系统可接着在每一秒的剩余时间(大约965ms到975ms)内闲置或睡眠。

在实施例中，推断引擎304对以分钟计的时间刻度操作。在阶段320处，处理器111经配置以唤醒相关资源(例如，DSP 112、存储器140、专用处理器)。典型接口窗口计时器(T_INF)将每隔30秒到120秒期满。当计时器期满时，在阶段322处，引擎304包含用以从存储器读取以下各者的指令：来自阶段314的对MFCC的平均值和方差的连续估计、来自阶段336的所存储的音频环境模型，以及来自阶段328的先前音频环境分布。引擎304接着使用隐式马尔可夫模型(Hidden Markov Model；HMM)的向前算法计算新的音频环境分布。接着在阶段328处用新的音频环境分布替换先前音频环境分布。在阶段324处，引擎304公布具有最高概率的状态为当前音频群集。在阶段326处，引擎304复制对平均值和方差的连续估计以在阶段330处将其存储在非易失性存储器中且在阶段314处将连续估计重置为零。在实施例中，这些操作可大致花费大约5ms。引擎304可接着在接口窗口间隔的剩余时间内返回到睡眠。

一般来说，音频模型环境更新服务306对以小时数或天数计的时间刻度操作。在阶段332处，更新服务306唤醒相关处理器(例如，处理器111、DSP 112、专用处理器)。作为实例，且并非限制，当将移动装置100插上电源时，一天出现一次周期性模型更新时间，优选在午夜之后。一旦触发了更新，在阶段334处，更新服务306便载入所存储的MFCC数据(即，阶段330处的所存储的连续估计)，且执行计算以更新音频环境模型。当完成此计算时，可在阶段336处更新所存储的音频环境模型，且可将相关处理器恢复到睡眠。在实例中，阶段334处的更新音频模型操作可大约花费约1分钟到2分钟来执行。

在实施例中，音频模型环境更新服务306是由经由网络连接到移动装置100的远程服务器执行。举例来说，远程服务器可在可经由无线通信链路接入的广域网(例如，蜂窝式网络)上。远程服务器也可经由毫微微小区或其它网络接入点接入。

根据本发明的多个方面，音频环境模型更新服务306群集所存储的MFCC数据。数据包含每一分钟内针对13个MFCC中的每一者的一个平均值和一个方差值。第t分钟内针对第d个MFCC的所存储的平均值和方差数据点分别通过yS(d,t)和yS2(d,t)来表示。群集操作获悉用户常去的相异音频环境的数目和特性化这些相异音频环境的参数两者。这些所获悉的值构成经更新的音频环境模型。

可在群集操作中包含时间信息和其它感观输入，这是因为此信息可改善性能。在此方法中，如果群集在时间上接近地发生，或具有类似感观输入信息，那么将两个隐藏状态指配给同一群集可为有利的。

参看图4，展示用以群集音频环境数据的示范性模型400。在一个实施方案中，假定：数据是根据特定统计模型由模型的最可能的参数产生，且模型的最可能的参数可从给定观察来推断。在实例中，模型可为贝叶斯非参数模型，其对关于数据中隐藏的群集的数目的统计假定求积分。

模型中的每一群集k∈{1,2,…,K}是通过平均值向量μ_k＝[μ_k(1),…,μ_k(13)]和方差向量σ_k ²＝[σ_k ²(1),…,σ_k ²(13)]来参数化。将所发现的群集的总数表示为K。

群集输出K、μ₁、…、μ_K、σ₁ ²、…、σ_k ²和π，其中π为表示成对群集(即，状态)之间的转变概率的矩阵。图4中展示用于群集的模型。模型最初可配置有若干状态L，所述L大于所预期的状态数目。在一种方法中，所述方法选择L＞＞K。在模型中，z_t表示在一天中的第t分钟期间的音频环境的隐藏的群集标识符。变量y_t,o＝[y_1,t,o…y_13,t,o]表示从在一天中的第t分钟期间观察的原始音频数据流计算的13个尺寸MFCC特征向量。变量O表示每一分钟计算的特征向量的数目。在另一种方法中，所述方法使用O＝60。所存储的数据通过足够统计囊封MFCC特征向量

yS (d, t) = Σ_{o = 1}^{O} y_{d, t, o}

和

yS 2 (d, t) = Σ_{o = 1 y}^{O} {y_{d, t, o}}^{2} .

根据本发明的多个方面，给定时间点的群集标识符可为先前时间点的群集标识符的函数，通过将z_t-1连接到z_t的箭头来表示。剩余变量表示群集模型的各种参数。图4说明根据本发明的一些方面的用以群集音频环境数据的示范性模型。

根据本发明的一些方面，推断引擎304使用由参数K、μ₁、…μ_K、和π组成的训练模型，以及对MFCC统计的连续估计yS(d,t)和yS2(d,t)，和先前音频环境分布p_old＝[p_old(1),...p_old(K)]，来推断新的音频环境分布p_new＝[p_new(1),...p_new(K)]且从此分布输出最可能的状态的标识符作为来自集合{1,...,K}的整数。举例来说，可如下来进行第t分钟。

p_{new} (k) = b (k) Σ_{j = 1}^{K} π (i, j) p_{old} (j)

其中

\begin{matrix} b (k) \\ = {(Π_{d = 1}^{13} σ_{k}^{2} (d))}^{- O / 2} \cdot \exp (Σ_{d = 1}^{13} \frac{yS 2 (d, t) - 2 yS (d, t) \cdot μ_{k} (d) + O \cdot μ_{k} {(d)}^{2}}{2 σ_{k} {(d)}^{2}}) \end{matrix}

对b的计算通常是在对数域中执行。

在一个实施方案中，在图2B中展示此音频环境群集方法对用户的数据的功效的实例。x轴展示以小时数计的时刻。y轴展示基于使用来自同一用户的先前数据的2周训练模型的所推断的群集标识符。在曲线图上在如由用户提供的时间说明活动标签。

参看图5，进一步参看图3，展示使用移动装置100分类音频环境的过程500。一般来说，过程500可通过存储在存储器140中的计算机可读指令来实现，所述计算机可读指令经配置以指示移动装置100的组件执行所识别的任务。然而，过程500仅为示范性的且并非限制性的。可(例如)通过添加、去除或重新布置多个阶段来变更过程500。在实施例中，过程500中的一个或一个以上阶段可由经由网络连接到移动装置100的远程计算机执行。

在阶段502处，移动装置100包含始终接通管理器代码段，所述代码段包含经配置以指示(多个)处理器(例如，处理器111和其它专用处理器(在需要时))和DSP 112更新对MFCC统计的连续估计的计算机可读指令。在阶段508处，始终接通管理器502可指示移动装置100收集音频帧数据，计算MFCC及更新MFCC统计(即，平均值和方差)。举例来说，始终接通管理器502指示移动装置100接通音频子系统，所述音频子系统包含麦克风135和音频接收链的其它元件(例如，DSP 112、存储器140、(多个)处理器)。用以接通音频子系统的指令可按以秒计的时间刻度(例如，每隔0.5秒、1秒、1.5秒、2秒、3秒)发生。在阶段510处，移动装置100经由麦克风135收集音频帧信息，且对音频数据的20ms到30ms进行取样。在阶段512处，计算若干MFCC。举例来说，计算13个MFCC，且在阶段514处，将值加到对当前音频环境的MFCC的平均值的连续估计，且将这些值的平方加到对当前音频环境的MFCC的方差的连续估计。

在阶段516处，始终接通管理器502代码段包含致使(多个)处理器执行数据/存储器管理功能的指令。举例来说，始终接通管理器502包含用以移动对MFCC统计的估计以在阶段518处存储及在阶段514处将连续估计重置到零的指令。在实例中，始终接通管理器502与环境推断引擎504协作地执行阶段516的功能。

在阶段504处，移动装置100包含环境推断引擎代码段，所述代码段包含经配置以指示(多个)处理器和DSP 112更新音频环境的计算机可读指令。一般来说，环境推断引擎504按以分钟计的时间刻度(例如，每1分钟、1.5分钟、2分钟、3分钟)执行。在阶段520处，环境推断引擎504提供用以收集MFCC统计(即，来自阶段514)、所存储的音频环境模型(即，来自阶段524)和先前音频环境分布(即，来自阶段526)的指令。在阶段522处，环境推断引擎504使用所收集的信息推断音频环境。举例来说，推断音频环境阶段522使用如先前所描述的HMM的向前算法。因此，大约每一分钟，环境推断引擎504用新的音频环境分布替换阶段526处的先前音频环境分布。在阶段516处，复制对MFCC统计的连续估计以将其存储在非易失性存储器(例如，在移动装置100被切断或进行功率循环时不被抹除的存储器)中，且将阶段514处的连续估计设置为零。

在阶段506处，移动装置100包含环境更新服务代码段，所述代码段包含经配置以从存储器载入MFCC统计及计算模型更新的计算机可读指令。一般来说，环境更新服务对以天数计的时间刻度(例如，每隔1天、1.5天、2天、3天)执行。在阶段528处，指示处理器111载入来自阶段518的所存储的MFCC数据，及对MFCC数据执行群集操作。举例来说，群集操作可如先前所描述及图4中所描绘。归因于群集操作所需的处理功率，优选地，在将移动装置插入电源但并不在使用中时(例如，在半夜)，执行阶段528。作为实例且并非限制，操作可花费大约1分钟到2分钟来执行。在实施例中，可在网络上传送所存储的MFCC统计，且阶段528处的处理可在远程计算机上发生。可在阶段524处将经更新的音频环境模型存储在存储器中。

参看图6，进一步参看图3，展示数据获取和特征计算的示范性时间映射的说明600。时间映射仅为示范性的，且并非限制，这是因为可使用其它时间配置。一般来说，数据获取和特征计算过程302按以秒测量的刻度操作。在实例中，移动装置100经配置以激活麦克风135以接收音频数据。音频俘获610的持续时间通常在20ms到30ms的范围内，且取样频率大约为16kHz。可使用其它取样持续时间和频率组合。特征计算模块602接收所俘获的音频数据且计算13个MFCC并估计MFCC统计604。此计算步骤612的持续时间可基于处理器速度而变化，但通常在15ms到30ms的范围内。接着将MFCC统计604写入到移动装置100内的易失性存储器模块。处理器和存储器配置可影响读取和写入时间，但读取/写入动作614的持续时间通常为5ms到10ms。俘获音频过程608之间的持续时间通常在965ms到975ms之间。

参看图7，进一步参看图3，展示环境推断的示范性时间映射的说明700。时间映射仅为示范性的，且并非限制，这是因为可使用其它时间配置。一般来说，环境推断引擎304按以分钟测量的刻度操作。在典型实例中，计算新的音频环境分布702之间的持续时间大约为60秒。以下各步骤的持续时间仅为示范性的且并非限制：读取先前音频环境分布704，接收所存储的环境模型706，读取及重置MFCC统计708，及将MFCC缓冲器传送到非易失性存储器710。此类存储器存取操作所需的时间可取决于存储器和处理器配置。一般来说，计算新的音频环境分布712所需的持续时间可在2毫秒到5秒的范围内。

参看图8，进一步参看图3，展示更新音频环境模型的示范性时间映射的说明800。时间映射仅为示范性的，且并非限制，这是因为可使用其它时间配置。一般来说，环境更新服务306按以小时数或天数测量的刻度操作。在典型实例中，更新音频环境模型之间的持续时间大约为24小时(例如，一天一次)。从非易失性存储器读取所存储的MFCC统计804及存储环境模型808的持续时间仅为示范性的，且并非限制。此类存储器存取操作所需的时间可取决于存储器和处理器配置。一般来说，根据本发明的计算及更新音频环境模型所需的持续时间大约为1分钟到2分钟。

本文中所描述的方法和移动装置可取决于应用通过各种装置来实施。举例来说，这些方法可以硬件、固件、软件或其组合来实施。对于硬件实施方案，处理单元可在以下各者内实施：一个或一个以上专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、电子装置、经设计以执行本文中所描述的功能的其它电子单元，或其组合。本文中，术语“控制逻辑”涵盖通过软件、硬件、固件或组合实施的逻辑。

对于固件和/或软件实施方案，所述方法可用执行本文中所描述的功能的模块(例如，程序、函数等)来实施。有形地体现指令的任何机器可读媒体可用于实施本文中所描述的方法。举例来说，软件代码可存储在存储器中且由处理单元来执行。可在处理单元内或在处理单元外部实施存储器。如本文中所使用，术语“存储器”指任何类型的长期、短期、易失性、非易失性或其它存储装置且不限于任何特定类型的存储器或任何数目个存储器，或存储存储器类型的媒体。

如果以固件和/或软件来实施，那么可将功能作为一个或一个以上指令或代码存储在计算机可读媒体上。实例包含编码有数据结构的计算机可读媒体和编码有计算机程序的计算机可读媒体。计算机可读媒体可呈制造物品的形式。计算机可读媒体包含物理计算机存储媒体。存储媒体可为可由计算机存取的任何可用媒体。以实例说明且并非限制，此类计算机可读媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储器、磁盘存储器或其它磁性存储装置，或可用以存储呈指令或数据结构形式的所要程序代码且可由计算机存取的任何其它媒体；如本文中所使用，磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字影音光盘(DVD)、软磁盘和蓝光光盘，其中磁盘通常以磁性方式再生数据，而光盘用激光以光学方式再生数据。上文各者的组合也应包含在计算机可读媒体的范围内。

除存储在计算机可读媒体上之外，指令和/或数据可作为信号提供于通信设备中所包含的传输媒体上。举例来说，通信设备可包含具有指示指令和数据的信号的收发器。指令和数据经配置以致使至少一个处理器实施权利要求书中所概述的功能。即，通信设备包含具有指示执行所揭示的功能的信息的信号的传输媒体。在第一时间，通信设备中所包含的传输媒体可包含执行所揭示的功能的信息的第一部分，而在第二时间，通信设备中所包含的传输媒体可包含执行所揭示的功能的信息的第二部分。

可结合各种无线通信网络来实施本发明，例如无线广域网(WWAN)、无线局域网(WLAN)、无线个人区域网(WPAN)等。术语「网络」和「系统」常常可互换地使用。术语「地点」和「位置」常常可互换地使用。WWAN可为码分多址(CDMA)网络、时分多址(TDMA)网络、频分多址(FDMA)网络、正交频分多址(OFDMA)网络、单载波频分多址(SC-FDMA)网络、长期演进(LTE)网络、WiMAX(IEEE 802.16)网络等。CDMA网络可实施一个或一个以上无线电接入技术(RAT)，例如cdma2000、宽带-CDMA(W-CDMA)等。Cdma2000包含IS-95、IS2000和IS-856标准。TDMA网络可实施全球移动通信系统(GSM)、数字高级移动电话系统(D-AMPS)，或某一其它RAT。GSM和W-CDMA描述于来自名为“第三代合作伙伴计划”(3GPP)的协会的文档中。Cdma2000描述于来自名为“第三代合作伙伴计划2”(3GPP2)的协会的文档中。3GPP和3GPP2文档可公开地得到。WLAN可为IEEE 802.11x网络，且WPAN可为蓝牙网络、IEEE 802.15x或某一其它类型的网络。所述技术还可结合WWAN、WLAN和/或WPAN的任何组合来实施。

移动台是指例如以下各者等装置：蜂窝式或其它无线通信装置、个人通信系统(PCS)装置、个人导航装置(PND)、个人信息管理器(PIM)、个人数字助理(PDA)、膝上型或能够接收无线通信和/或导航信号的其它合适移动装置。术语“移动台”也希望包含例如通过短程无线、红外线、有线连接或其它连接与个人导航装置(PND)通信的装置，而不管卫星信号接收、助理数据接收和/或地点相关处理发生在装置处还是PND处。又，“移动台”希望包含所有装置，包含能够(例如)经由因特网、Wi-Fi或其它网络与服务器通信的无线通信装置、计算机、膝上型计算机等，而不管卫星信号接收、助理数据接收和/或地点相关处理发生在装置处、服务器处还是与网络相关联的另一装置处。上述各者的任何可操作组合也被视为“移动台”。

关于某物“经优化”、“所需”或其它名称的名称并不指示当前发明仅适用于经优化的系统，或存在“所需”元件的系统(或归因于其它名称的其它限制)。这些名称仅指特定所描述的实施方案。当前，许多实施方案为可能的。所述技术可供除本文中所论述的协议之外的协议使用，包含在开发中的或将开发的协议。

所属相关技术领域的技术人员将认识到，可使用所揭示实施例的许多可能的修改和组合，但仍使用相同的基础底层机制和方法。出于解释的目的，参考特定实施例撰写了前述描述。然而，上文的说明性论述不希望为详尽的或将本发明限于所揭示的精确形式。鉴于上述教示，许多修改和变化为可能的。选择及描述所述实施例以解释本发明的原理和其实际应用，且使得所属领域的技术人员能够最好地利用具有如适合于所预期的特定用途的各种修改的本发明和各种实施例。

Claims

1.一种分类音频环境的方法，其包括：

根据第一时间间隔由麦克风对所述音频环境进行取样以获得经取样音频数据；

计算所述经取样音频数据的特征，其包括计算多个梅尔频率倒谱系数MFCC，在第一时间间隔内使用所述多个MFCC产生对MFCC数据的统计的连续估计，存储对MFCC数据的统计的所述连续估计；

根据第二时间间隔从所述经取样音频数据的所述特征中推断音频群集标识符；以及

根据第三时间间隔使用所存储的对MFCC数据的统计的所述连续估计更新音频环境模型。

2.根据权利要求1所述的方法，其中产生对MFCC数据的统计的连续估计包括：

将所述多个MFCC加到与所述音频环境的所述多个MFCC的平均值成比例的估计；以及

将所述多个MFCC的平方加到与所述音频环境的所述多个MFCC的方差成比例的估计。

3.根据权利要求1所述的方法，其中推断所述音频群集标识符包括：

读取对MFCC数据的统计的所述连续估计、先前所存储的音频环境模型和先前所确定的音频环境概率分布；

使用对MFCC数据的统计的所述连续估计、所述先前所存储的音频环境模型和所述先前所确定的音频环境概率分布计算当前音频环境概率分布；

用所述当前音频环境概率分布替换所述先前所确定的音频环境概率分布；

根据所述当前音频环境概率分布推断当前音频群集标识符；以及

将对MFCC数据的统计的所述连续估计存储为MFCC统计。

4.根据权利要求3所述的方法，其中更新所述音频环境模型包括：

读取所述MFCC统计；

使用所述MFCC统计更新所述音频环境模型；以及

将所述音频环境模型存储在存储装置中。

5.根据权利要求1所述的方法，其中对所述音频环境进行取样是在20毫秒到30毫秒之间的持续时间内执行；其中推断所述音频群集标识符是在1毫秒到100毫秒之间的持续时间内执行；且其中更新所述音频环境模型是在1分钟到20分钟之间的持续时间内执行。

6.根据权利要求1所述的方法，其中所述第一时间间隔实质上比所述第二时间间隔短；且所述第二时间间隔实质上比所述第三时间间隔短。

7.根据权利要求6所述的方法，其中所述第一时间间隔在0.5秒到3秒之间，所述第二时间间隔在30秒到120秒之间，且所述第三时间间隔在6小时到24小时之间。

8.根据权利要求1所述的方法，其中所述音频群集标识符表示周围音频环境。

9.一种用移动装置分类音频环境的设备，其包括：

用于根据第一时间间隔由麦克风对所述音频环境进行取样以获得经取样音频数据的装置；

用于计算所述经取样音频数据的特征的装置，其包括用于计算多个梅尔频率倒谱系数MFCC的装置，用于在第一时间间隔内使用所述多个MFCC产生对MFCC数据的统计的连续估计的装置，用于存储对MFCC数据的统计的所述连续估计的装置；

用于根据第二时间间隔从所述经取样音频数据的所述特征中推断音频群集标识符的装置；以及

用于根据第三时间间隔使用所存储的对MFCC数据的统计的所述连续估计更新音频环境模型的装置。

10.根据权利要求9所述的设备，其中所述用于产生对MFCC数据的统计的连续估计的装置包括：

用于将所述多个MFCC加到与所述音频环境的所述多个MFCC的平均值成比例的估计的装置；以及

用于将所述多个MFCC的平方加到与所述音频环境的所述多个MFCC的方差成比例的估计的装置。

11.根据权利要求9所述的设备，其中所述用于推断所述音频群集标识符的装置包括：

用于读取对MFCC数据的统计的所述连续估计、先前所存储的音频环境模型和先前所确定的音频环境概率分布的装置；

用于使用对MFCC数据的统计的所述连续估计、所述先前所存储的音频环境模型和所述先前所确定的音频环境概率分布计算当前音频环境概率分布的装置；

用于用所述当前音频环境概率分布替换所述先前所确定的音频环境概率分布的装置；

用于根据所述当前音频环境概率分布推断当前音频群集标识符的装置；以及

用于将对MFCC数据的统计的所述连续估计存储为MFCC统计的装置。

12.根据权利要求11所述的设备，其中用于更新所述音频环境模型的装置包括：

用于读取所述MFCC统计的装置；

用于使用所述MFCC统计更新所述音频环境模型的装置；以及

用于将所述音频环境模型存储在存储装置中的装置。

13.根据权利要求9所述的设备，其中对所述音频环境进行取样是在20毫秒到30毫秒之间的持续时间内执行；其中推断所述音频群集标识符是在1毫秒到100毫秒之间的持续时间内执行；且其中更新所述音频环境模型是在1分钟到20分钟之间的持续时间内执行。

14.根据权利要求9所述的设备，其中所述第一时间间隔实质上比所述第二时间间隔短；且所述第二时间间隔实质上比所述第三时间间隔短。

15.根据权利要求14所述的设备，其中所述第一时间间隔在0.5秒到3秒之间，所述第二时间间隔在30秒到120秒之间，且所述第三时间间隔在6小时到24小时之间。

16.根据权利要求9所述的设备，其中所述音频群集标识符表示周围音频环境。