CN106157972A

CN106157972A - 使用局部二进制模式进行声学情境辨识的方法和设备

Info

Publication number: CN106157972A
Application number: CN201610304272.XA
Authority: CN
Inventors: 达妮埃莱·巴塔利诺; 卢多维克·多米尼克·乔尔·勒保罗克; 劳伦·皮拉蒂; 尼古拉斯·威廉·大卫·埃文斯
Original assignee: NXP BV
Current assignee: Top Top Technology Hongkong Co Ltd
Priority date: 2015-05-12
Filing date: 2016-05-10
Publication date: 2016-11-23
Anticipated expiration: 2036-05-10
Also published as: CN106157972B; EP3093846A1; US10635983B2; US20160335553A1

Abstract

各种示例性方面是针对声学情境辨识设备和方法，其涉及隔离和识别声学环境的情境。在一个示例性实施例中，将源音频转换成音频频谱图，每一频谱图指示一段时间。分析这一系列频谱图以识别在某一时间段中的音频模式，所述音频模式指示所述源音频的环境情境。在本发明的许多实施例中，声学情境辨识还包括比较所述所识别的音频模式与已知环境情境。

Description

使用局部二进制模式进行声学情境辨识的方法和设备

技术领域

本发明的各方面总体上涉及声音处理。具体来说，本发明提出利用局部二进制模式进行音频场景辨识以识别音频中的模式的方案，音频中的模式可能与例如不同来源、语音、音乐、背景噪声和特定事件相关联。

背景技术

在计算机电子器件(例如，蜂窝电话)的许多应用中，客户需要高度个性化，包括呈现给用户的数据的高度个性化。本发明的实施例是针对通过对在使用经由麦克风接收的音频时装置的使用环境进行情境分析，提供这样的个性化。在这些实施例中，装置能够隔离和识别环境的情境，且向用户呈现至少部分与环境相关联的信息。声音环境的情境可包括各种音频源，所述音频源包括通常与例如办公室、公共汽车或街道等位置相关联的声音。相比其它方法，使用音频场景辨识能提供几种益处，至少包括俘获时间事件的能力，和区分环境中若干同时出现的情境的能力。各种实施例可利用存在于电子装置中的硬件，例如麦克风和足够的处理电路。根据本发明已发现，能够俘获时间事件会大大增加装置正确地识别情境的概率。在本发明的其它更特定实施例中，装置可进一步降低装置的音频处理要求，由此在装置为移动装置的情况下增加电池寿命，且改进装置的总体性能，因为需要分配给后台功能的处理能力更少。

本发明的各方面通过将音频变换成音频频谱图(在一或多个时间段的音频的视觉表示)，并分析来自同一个音频源的一系列频谱图以识别音频模式，借此将图像处理技术应用于音频频谱，所述音频模式指示接收音频的装置所处的环境情境(例如，办公室、公共汽车、街道等)。本发明能够使用与这一系列频谱图相关联的直方图随时间推移映射这些音频模式，这大大提高了声学辨识性能。

在本发明的许多实施例中，声学辨识方法可利用预定义码本，其中将所识别的音频模式与已知环境情境进行比较。在比较时，如果所识别的音频模式在码本中的已知音频模式中的一或多个音频模式的相似性阈值内，那么所识别的音频模式将与已知音频模式的环境情境相关联。在这些实施例中，所识别的音频模式可被加入码本，且在码本中与适当环境情境相关联。在另外的其它实施例中，该方法可包括学习阶段，其允许装置的用户利用声学辨识方法来识别音频模式(声学辨识方法可能无法识别)，且将音频模式加入码本。

发明内容

本发明的各种实施例是针对识别音频场景的情境。根据一个此类示例性实施例，公开包括以下步骤的方法。接收指示音频输入的音频信号频谱图，且基于频谱图的邻近像素的比较，构建多个局部二进制模式(LBP)。对于频谱图的多个块中的每一块，创建基于不同LBP在多个块中的对应块中出现的次数的相应LBP直方图。基于LBP直方图与多个码字之间的对应，创建码本直方图。最后，使用机器学习模型，对码本直方图进行分类以识别所接收的音频信号的情境。在本发明的另外的其它更特定实施例中，该方法可进一步包括从相应LBP直方图中识别具有k均值算法的LBP直方图的集群，且基于集群产生码字，所述码字为所识别的集群的质心。在某些实施例中，分类和情境识别可实时或近实时进行。

本发明的其它实施例是针对用于识别音频场景的情境的离线学习阶段(这些所识别的情境可稍后用于实时应用以识别所接收的音频输入的情境)。根据一个此类示例性实施例，公开包括以下步骤的方法。接收指示音频输入的音频信号频谱图，且基于频谱图的邻近像素的比较，构建多个局部二进制模式(LBP)。对于频谱图的多个块中的每一块，创建基于不同LBP在多个块中的对应块中出现的次数的相应LBP直方图。基于用于频谱图的多个块中的每一块的相应LBP直方图，识别LBP直方图的集群，且基于集群产生用于机器学习模型的码字。

本发明的许多实施例是针对设备。本发明的设备包括音频LBP直方图模块、码本创建模块、直方图映射模块和支持向量机。音频LBP直方图模块接收指示音频输入的音频信号频谱图。基于频谱图的邻近像素的比较，音频LBP直方图模块建构多个局部二进制模式(LBP)。对于频谱图的多个块中的每一块，音频LBP直方图创建相应LBP直方图，所述LBP直方图基于不同LBP在多个块中的对应块中出现的次数。以通信方式耦合到音频LBP直方图模块的码本创建模块从相应LBP直方图中使用k均值算法识别LBP直方图的集群。以通信方式耦合到码本创建模块和音频LBP直方图模块的直方图映射模块基于集群产生码字，所述码字为所识别的集群的质心。基于LBP直方图与多个码字之间的对应，直方图映射模块创建码本直方图。最后，以通信方式耦合到直方图映射模块的支持向量机模块使用机器学习模型对码本直方图进行分类以识别用于所接收的音频信号的情境。

以上论述/概述并不意欲描述本发明的每一实施例或每一实施方案。下面的图和详细描述也举例说明各种实施例。

附图说明

结合附图考虑以下详细描述，可以更全面地理解各种示例性实施例，其中：

图1A到图1B示出与本发明的各种方面一致的功能框图；

图2示出与本发明的各种方面一致的系统级框图；

图3为示出与本发明的各种方面一致的从音频信号创建LBP的图；以及

图4示出与本发明的各种方面一致的功能框图。

虽然本文中所论述的各种实施例能够接受各种修改及替代形式，但图式中还是举例示出了各种实施例的各方面并将进行详细描述。然而，应理解，不意图将本发明限于所描述的特定实施例。相反，意图涵盖落入包括权利要求书中限定的各方面的本发明的范围内的所有修改、等效物和替代方案。另外，本申请案通篇中所使用的“例子”这个术语只是用做例示而不是用做限制。

具体实施方式

本发明的各方面总体上涉及声音处理。具体来说，本发明提出用于经由新颖方法进行音频场景辨识的方案，所述新颖方法利用局部二进制模式来识别音频中的模式，音频中的模式可能与情境(例如，不同来源、语音、音乐、背景噪声和特定事件)相关联。

在计算机电子器件(例如，蜂窝电话)的许多应用中，客户需要呈现给用户的数据中的高度个性化。本发明的实施例总体上是针对通过对在利用经由内置麦克风(在电子器件上机载的)接收的音频时的装置使用环境进行情境分析，实现这种个性化。

在各种实施例中，装置能够隔离和识别环境的情境，且至少部分基于环境调适所呈现的信息。举例来说，装置可被配置成基于所接收的音频信号中的声音的分类(和其它因素，例如当日时间、位置和其它装置可辩别的信息)确定例如用户在下班回家路上的街上。装置接着可显示指示当前交通模式、最佳回家路线、天气状况和该区域当前提供优惠时间特价菜的当地餐馆的信息。

由装置识别的情境可包括音响环境的各种可辨别的方面，例如办公室里荧光灯的嗡嗡声、市内公共汽车的排气噪声或城市街道的各种环境噪声(例如汽车喇叭声)等。相比其它方法，使用音频场景辨识提供几种益处，至少包括俘获时间事件的能力，和区分环境中若干同时出现的情境的能力。已发现，能够使在某一时间段中的单个音频事件相关会大大增加肯定地识别音频事件(或情境)的能力。而且，各种实施例的方面特别能用于限制额外硬件，因为许多电子装置已经包括麦克风和足够的处理电路。

本发明的各方面也是针对降低所接收的音频的处理要求。在许多情况下，理想地将这些实施例嵌入到移动装置中，移动装置的电量是有限的。在本发明的其它更特定实施例中，音频处理方法可进一步降低装置的音频处理要求，由此在装置为移动装置的情况下增加电池寿命，且改进装置的总体性能，因为需要分配给后台功能(包括音频处理)的处理能力更少。本实施例通过如下方式实现了电力使用量的此下降：通过例如将相对于彼此定位的各种码本直方图聚类到单个质心中(这也会减少音频处理方法的内存占用率)，借此最小化与所接收的音频信号相关联的直方图与码本直方图之间所需要的比较操作。

本发明的各方面通过将音频变换成音频频谱图(在一或多个时间段的音频的视觉表示)，并分析来自同一个音频源的一系列频谱图以分类和识别音频模式，借此将图像处理技术应用于音频频谱，所述音频模式指示接收音频的装置所处的环境情境(例如，办公室、公共汽车、街道等)。能够随时间推移映射这些音频模式能大大提高声学辨识性能。在本发明的实施例中，声学辨识方法可利用预定义码本，所述预定义码本可用以分类和识别与已知环境情境相关的音频模式。在比较时，如果所识别的音频模式在码本中的已知音频模式中的一或多种音频模式的相似性阈值内，那么所识别的音频模式将与已知音频模式的环境情境相关联。在另外的其它实施例中，该方法可包括学习阶段，其允许用户利用声学辨识方法来识别音频模式(声学辨识方法原本当前可能无法根据其现有码本识别音频模式)，且将这些情境加入码本。

本发明的各种示例性实施例是针对解决与声学情境辨识和其实施方案有关的难题的方法、电路和系统。还应理解，在包括语音辨识的音频辨识的其它区域中也可利用本发明的各方面。

本发明的实施例是针对用于识别音频场景的情境的学习阶段。所识别的情境稍后可用于(实时)应用中，以识别所接收的音频输入的情境。根据示例性实施例，处理装置(例如，一或多个计算机处理器单元或电路)接收指示音频输入的频谱图形式的音频信号。处理装置接着可比较频谱图的邻近像素，以构建多个局部二进制模式(LBP)。对于频谱图的多个子块中的每一子块(例如，对应于不同音频范围的子块)，基于不同LBP出现的次数而创建相应LBP直方图。处理装置接着可使用频谱图的多个块中的每一块的相应LBP直方图来识别LBP直方图的集群。接着由集群创建码字(例如，基于集群中的每一集群的平均值或质心的码字)。接着可根据机器学习算法或模型对处理装置码字进行分类。

本发明的各种实施例是针对用于识别音频场景的情境的方法。根据示例性实施例，基于LBP直方图的聚类而创建的码本可被用作特征列表。本文中更详细描述了关于此码本的创建的特定细节。使用此码本可能特别有用，因为其提供对音频内容进行分类的紧凑并且有鉴别性的特征集。根据实施例，处理装置可接收指示音频输入的音频信号频谱图。处理装置接着可基于频谱图的邻近像素的比较构建多个LBP。

对于频谱图的多个子块中的每一子块，创建基于不同LBP在多个块中的对应块中出现的次数的相应LBP直方图。多个LBP指示频谱图的多个块中的每一块中的像素值、阈值转变和相应像素位置。频谱图的多个块中的每一块的相应LBP直方图指示在某一时间段中音频输入的声学情境。在更特定实施例中，每一相应LBP直方图将频谱图的多个块中的每一块映射到多个均匀配置和不均匀配置中。基于LBP直方图与多个码字之间的对应，创建码本直方图。在其它实施例中，码本直方图的创建进一步包括使用LBP直方图与码字之间的余弦距离确定LBP直方图与码字之间的余弦距离，且基于余弦距离将LBP直方图指派给码本直方图中的码字。

最后，使用利用码本训练的机器学习模型，对码本直方图进行分类，以识别所接收的音频信号的情境。在各种实施例中，机器学习模型在支持向量机内。在本发明的另外的其它更特定实施例中，可使用k均值聚类算法识别LBP直方图的集群。k均值聚类算法是机器学习技术，其将n个观测结果分割成k个集群，其中每一观测结果属于均值最接近的集群。在给定观测结果集(x₁，x₂，...，x_n)的情况下(其中每一观测结果为d维实向量)，k均值聚类旨在将n个观测结果分割成k(≤n)个集合S＝{S₁，S₂，...，S_k}，以便最小化集群内平方和(WCSS)。k均值聚类等式为：

\underset{S}{\arg \min} Σ_{i = 1}^{k} \underset{x &Element; S_{i}}{Σ} | | x - μ_{i} | |^{2}

其中μ_i为S_i中的点的均值。该算法最终找到具有相当的空间范围的集群。处理装置接着可产生码字，所述码字是基于集群的质心。

本发明的许多实施例进一步包括对于LBP直方图中的每一LBP直方图，使用在LBP直方图中的每一LBP直方图的相应块之外的像素值进行内插。

本发明的许多实施例是针对设备。本发明的一个设备包括音频LBP直方图模块、码本创建模块、直方图映射模块和支持向量机。音频LBP直方图模块接收指示音频输入的音频信号频谱图。基于频谱图的邻近像素的比较，音频LBP直方图模块建构多个局部二进制模式(LBP)。对于频谱图的多个块中的每一块，音频LBP直方图创建相应LBP直方图，所述LBP直方图基于不同LBP在多个块中的对应块中出现的次数。以通信方式耦合到音频LBP直方图模块的码本创建模块从相应LBP直方图中用k均值算法识别LBP直方图的集群。以通信方式耦合到码本创建模块和音频LBP直方图模块的直方图映射模块基于集群产生码字，所述码字为所识别的集群的质心。基于LBP直方图与多个码字之间的对应，直方图映射模块创建码本直方图。最后，以通信方式耦合到直方图映射模块的支持向量机模块使用机器学习模型对码本直方图进行分类以识别用于所接收的音频信号的情境。

现在参看各图，图中借助于说明呈现了本发明的各种实施例。

图1A示出与本发明的各种方面一致的用于辨识音频信号的声学情境的功能图。首先，接收105指示音频输入的音频信号频谱图。接着基于所接收的频谱图的邻近像素的比较构建110多个局部二进制模式(LBP)。对于频谱图的多个块中的每一块，基于不同LBP在多个块中的对应块中出现的次数创建115相应LBP直方图。从相应LBP直方图中的每一LBP直方图识别120LBP直方图的集群。对于集群中的每一集群，产生125表示对应集群的码字。接着将LBP直方图与表示集群的码字进行比较以创建码本直方图130。最后，使用机器学习模型，对码本直方图进行分类135以识别所接收的音频信号的情境。

图1B示出与本发明的各种方面一致的用于辨识音频信号的声学情境的另一功能图。首先，接收150指示音频输入的音频信号频谱图。接着基于所接收的频谱图的邻近像素的比较构建155多个局部二进制模式(LBP)。对于频谱图的多个块中的每一块，基于不同LBP在多个块中的对应块中出现的次数创建160相应LBP直方图。从相应LBP直方图中的每一LBP直方图识别165LBP直方图的集群。基于LBP直方图的集群，产生170含有多个码字的码本，接着将LBP直方图映射到码本的码字以创建码本直方图175。最后，使用LBP直方图作为特征来训练180机器学习算法。

图2示出与本发明的各种方面一致的系统级框图。系统200包括学习装置201，所述学习装置创建(支持向量机“SVM”)模型，所述模型通过使用直方图的码本作为用于分类的特征对已知情境进行分类。装置211从学习装置201接收(SVM)模型，且使用模型对情境未知的所接收的声音进行分类(实时使用)。在本发明的各种实施例中，可利用有线或无线通信装置将模型传递到装置211。此外，在一些实施例中，可有规律地更新模型以包括新分类的音频情境。

参考学习装置201，含有具有已知情境的音频数据的存储器模块202将音频数据提供到特征提取模块205。特征提取模块205在音频数据的时间长度内以时间方式构建音频信号频谱图。接着将频谱图划分成子块，且将每一子块乘以音频经过调适的局部二进制模式(“LBP”)。对于每一子块，提取LBP的直方图，每一直方图包括环境的音频频谱。特征提取模块205接着利用聚类算法来创建声学模式的码本。这些声学模式表示共同特性(或特征)，所述共同特性可用以识别对于给定应用来说可能相关的情境(或噪声)。

与本发明的实施例一致，LBP的聚类会减少或压缩特征以进行分析。对于减少装置处理和存储器资源的使用，这一点可能特别有用。在特定实施例中，在提取了所有直方图的情况下，可以使用k均值聚类算法(基于余弦相似性)将类似直方图块分组，且获得具有数据集的相关模式的最终码本。将集群的质心写成码本的元素。受监督的训练模块210创建(SVM)模型，所述模型通过使用直方图的码本作为用于分类的特征来分类已知情境。输出为(SVM)模型，所述模型可用以对情境未知的未来声音进行分类(实时使用)。

参考系统200的装置211，学习装置201的模型被配置于装置211的特征提取模块206中。模型包括码本，所述码本表示期望在给定应用中检测到的类型的情境的共同特性或特征。由音频信号接收模块220(例如，麦克风或其它音频接收机构)接收音频信号。在许多实施例中，音频信号(至少部分)指示音频信号接收模块220所处的环境。举例来说，如果包括图2的各种模块的例如手机等装置是在体育事件中，那么可根据本发明的方面处理声学情境(包括例如语音、音乐、背景噪声和其它特定声学事件)，以指示手机的情境环境为体育事件。这可包括根据与体育事件一致的学习到的特性对各种音频特征进行分类。在这些实施例(并且可能结合其它所收集的数据，例如位置数据、用户输入等)中，手机可被配置成定制用户接口以显示体育事件的相关信息，例如最新运动选手统计数据、新闻、即时重播和其它联赛相关新闻。

音频信号接收模块220可在将所接收的音频信号传输到特征提取模块206之前对音频信号执行几种辅助功能，例如降噪、放大等。特征提取模块206首先构建指示音频信号接收模块220接收到的音频输出的音频信号频谱图。特征提取模块206接着基于频谱图的邻近像素的比较生成多个局部二进制模式(LBP)。基于频谱图的多个块中的每一块，创建相应LBP直方图，所述相应LBP直方图基于不同LBP在多个块中的对应块中出现的次数。基于LBP直方图与多个码字之间的对应，创建码本直方图。最后，辨识SVM 225使用机器学习模型对码本直方图进行分类，以识别所接收的音频信号的情境。被提供为辨识SVM 225的输出的辨识结果230可指示所接收的音频的情境。应理解，除支持向量机以外，在本发明中也可利用用于受监督学习的其它分类器，例如人工神经网络和高斯混合模型。

图3示出了图，所述图示出了与本发明的各种方面一致的从音频信号创建LBP的过程。在各种实施例中，处理装置300可包括特征提取模块，所述特征提取模块可用以从音频信号的频谱图330产生LBP。用于频谱图330的可能格式为曲线图，其中一根轴(例如，横轴)表示时间，另一根轴(例如，纵轴)表示频率。振幅或音量可由图像像素的强度或颜色指示。

特征提取模块可将频谱图330分解成包括块331的数个子块。在某些实施例中，频谱图330可为线性频谱图。由于子块的局部性质，每一子块可表示音频信号的特定时间和频率范围。已发现，频谱图的线性表示含有较少噪声，且可主要受稀疏高能元素支配(增加图案辨识的可能性)。如332中所示，对于图像的每一像素，围绕中心像素建构块。如333中所示，可将每一像素的值与周围像素相比较(使用阈值)，如果值较低，那么将其映射为0；如果较大，那么将其映射为1。在特定实施例中，周围像素的值可与整个块331上的均值相比较，但用于确定比较阈值的其它变化是可能的。在这些实施例中，此均值方法可使算法对噪声的稳定性更强，且对像素间的大幅变化的稳定性更强。

从块332的左上角开始，变换二进制值(例如参见二进制：11010011)。在某些实施例中，块332的二进制结果可通过内插这些值而被建模为指示340中所描绘的59个可能的位组合圆圈中的一个位组合圆圈。具体来说，前58个位组合表示均匀位组合，其中1与0之间的二进制转变的数目不大于2。可将不均匀LBP映射到第59位组合。因此，所得直方图350的尺寸可能限于算法中的59个可能的模式中的一个模式(每一模式将所得块333的可能朝向考虑在内)。与各种实施例一致，其它直方图也是可能的，包括位组合的更详尽列表或更少的位组合。举例来说，在某些应用中，一或多个不均匀位组合可能特别有辨识性。因此，直方图尺寸可扩展以包括这些位组合。或者或另外，对于某些应用，可移除一或多个均匀位组合。

每当在块中发现模式(59个可能模式中的一个模式)，在所得直方图350中累积所述模式。所得直方图350将每第i个模式的出现考虑在内，且直接表示图像的模式分布。

图4示出与本发明的各种方面一致的用于辨识音频信号的声学情境的功能框图。图4的方案利用LBP、利用音频信号频谱图表示的图像处理技术、直方图来辨识声学情境。LBP可被用作有效纹理算子，所述有效纹理算子通过设定相邻像素的阈值和将结果计算为二进制数(如本文中更详细所论述)来标记频谱图图像的像素。

LBP特别适合于各种音频应用，因为它的算法甚至对于频谱图中的相邻像素之间的巨大波动(这在音频频谱图中是常见的)也很稳定。LBP也受益于建构更可辨别的特征的能力，所述特征利用频谱的时频信息。已发现，俘获和关联在某一时间段中的情境事件可显著提高情境事件的辨识性能。

参看图4详细地描述使用基于LBP的算法辨识声学情境的示例性电路。根据本发明的实施例，将电路分割成五个块/模块：音频LBP直方图模块1、码本创建模块2、直方图映射模块3、SVM训练模块4和SVM测试模块5。

音频LBP直方图模块1接收音频信号401，且将音频信号转换成频谱图402。接着将频谱图划分成块403(例如，对应于不同音频范围的块)，且利用LBP算法通过比较每一像素的值与其相应相邻像素，借此从输入图像(频谱图)中找出反复出现的模式。接着针对频谱图402的块403中的每一块建构LBP直方图404，并且计算模式在整个图像中被发现多少次。输入图像可为音频信号401的频谱图402，且必须对其进行修改，以更好地与LBP算法拟合。

在使用已知音频序列的系统的受监督训练期间，码本创建模块可用以识别特征，所述特征接着可用以训练机器学习模块，例如SVM。一旦已提取来自整个数据集的LBP直方图，码本创建模块2便可使用聚类技术405将频繁使用的直方图分组在一起。集群值接着可用以形成码本406。直方图映射模块3接着利用余弦相似性407找出码本406中的哪些码本直方图408是类似的。接着可将LBP直方图404映射到来自码本的码字中的一个码字上。在这些步骤之后，码本直方图408的特征的冗余度变低，且尺寸比单独的LBP直方图404更小。这对于嵌入式装置来说可能特别有用，因为嵌入式装置可能有存储空间和计算方面的局限性。

来自直方图映射模块3的码本直方图408变为SVM训练模块4和SVM测试模块5的输入特征。在本发明的各种实施例中，将对SVM训练模块4进行训练409以对三个子带的59尺寸的直方图进行分类，或对映射到词典中的可能模式中的一个模式中的特征进行分类。结果，创建SVM模型410，所述SVM模型410可由SVM测试模块5使用来预测411和输出412指示所接收的音频信号的情境。在许多实施例中，SVM模块4和5将数据投影到较高维空间中，在此新空间中，有可能使用具有分类的最大裕度和最小误差的超平面来应用线性分离。另外，更密集表示能够最大化不同情境之间的距离，且改进SVM的可辨别能力。

在本发明的某些实验实施例中，公开LBP算法，所述LBP算法比较周围像素与整个块上的均值：

{LBP}_{P, R} = Σ_{i = 0}^{P - 1} f (g_{i} - μ) 2^{P}, f (x) = \{\begin{matrix} 1, x &GreaterEqual; μ \\ 0, x < μ \end{matrix}

其中g_i为第i个相邻像素的值，μ为整个块之上的均值，P为所涉及的像素的数目。R为邻域的半径：g_i的坐标为Rcos(2πi/P)、sin(2πi/P)。不在块中的像素值可由双线性内插法估计。像素接着可使用3*3块中的x及y坐标两者以及内插权重w_i进行内插：

z＝w₀+W₁X+w₂y+a₃xy

在各种示例性实施例中，频谱图中的像素值受巨大波动影响，所述巨大波动可能会损害LBP表示(导致直方图的可能无限多的潜在尺寸)。为了减少直方图的潜在尺寸，考虑LBP码中的0与1之间的转变：如果转变的数目小于或等于2，那么LBP二进制字符串被视为均匀的，且将其映射到58个配置中的一个配置中，类似图2中的情况(因此，第59配置是用于不均匀的LBP二进制字符串)。均匀模式确保存在相关纹理元素，例如边缘、角或均匀分区，且其将舍弃不均匀的分区(转给第59配置)，所述不均匀的分区更有可能已经受到噪声的影响。在实验测试中，已表明此直方图减少的效果良好。

参看本发明的各种实施例中的频谱图分析，频谱图中的像素表达特定时频坐标中的能量信息。本发明的许多实施例利用线性频谱频谱仪到对数频谱频谱仪，其较少地受噪声支配。线性频谱图主要由稀疏高能元素形成，而剩余元素不会干扰模式辨识。在这些实施例中，将频段分离成三个不同频段(小于900Hz，从900Hz到2kHz和从2kHz直到8kHz为止)，以表示在16kHz取样的信号中含有的完整信息。特定频率范围可基于特定取样速率和其它考虑因素(例如，所分析的情境的类型)进行调整。LBP算法使用这三个副频段来执行声学模式辨识，且提取频谱图的对应块中的每一块的直方图(类似图2中的情况)。

在本发明的特定实施例中，用于创建码本中的代码的算法在进行分类之前包括另一步骤，以使特征更紧凑。这个另一步骤发现数据集中的最具代表性的模式，且使用不受监督的分类自动提取所述最具代表性的模式。最具代表性的直方图的码本的创建为算法的基本部分，因为其允许未知声学情境的分类。可以使用k均值聚类算法(或其它聚类算法)将类似块分组，且获得具有数据集的最相关模式的最终码本。余弦距离可被用作许多特征描述符(尤其是直方图特征)的良好度量。最后，集群的质心变为码本的元素，如上文所更详细描述。

可以实施各种块、模块或其它电路以执行本文中描述和/或图中所示出的操作和活动中的一或多个操作和活动。在这些情境中，“块”(有时也称为“逻辑电路”或“模块”)为进行这些或相关操作/活动中的一或多个操作/活动的电路(例如，第一模块、第二模块和存储器模块)。举例来说，在以上论述的实施例中的某些实施例中，一或多个模块为被配置且被布置成用于实施这些操作/活动的离散逻辑电路或可编程逻辑电路，如图1中所示出。在某些实施例中，此类可编程电路为一或多个计算机电路，其被编程为执行指令(和/或配置数据)的集合(或若干集合)。指令(和/或配置数据)可采用存储在存储器(电路)中且可从存储器(电路)中存取的固件或软件的形式。举例来说，第一和第二模块包括基于CPU硬件的电路和采用固件形式的指令集的组合，其中第一模块包括第一CPU硬件电路与一个指令集，第二模块包括第二CPU硬件电路与另一指令集。

某些实施例涉及一种计算机程序产品(例如，非易失性存储器装置)，所述计算机程序产品包括机器或计算机可读媒体，在所述机器或计算机可读媒体上存储有可以由计算机(或其它电子装置)执行以实施这些操作/活动的指令。

基于以上论述和说明，本领域的技术人员将易于认识到，可以对各种实施例作出各种修改和改变，而无需严格遵循本文中示出和描述的示例性实施例和应用。举例来说，如本文中所揭示，声学情境辨识可用于语音辨识环境和/或将受益于本发明的各种优点的其它基于计算机的音频辨识应用中。此类修改不脱离本发明的各个方面的真实精神和范围，包括在权利要求书中阐述的方面。

Claims

1.一种方法，其特征在于，包括：

接收具有邻近像素的音频信号频谱图，所述音频信号频谱图指示音频输入；

基于所述频谱图的所述邻近像素的比较构建多个局部二进制模式(LBP)；

对于所述频谱图的多个块中的每一块，创建相应LBP直方图，所述LBP直方图基于不同LBP在所述多个块中的对应块中出现的次数；

从所述相应LBP直方图中识别LBP直方图的集群；

对于所述集群中的每一集群，产生表示对应集群的码字；

基于所述LBP直方图与表示所述集群的所述码字之间的对应创建码本直方图；以及

使用机器学习模型对所述码本直方图进行分类，以识别所述所接收的音频信号频谱图的情境。

2.根据权利要求1所述的方法，其特征在于，所述频谱图的所述多个块中的每一块的所述相应LBP直方图指示在某一时间段中所述音频输入的声学情境。

3.根据权利要求1或2所述的方法，其特征在于，所述音频信号频谱图为所述音频输入的线性频谱表示。

4.根据在前的任一项权利要求所述的方法，其特征在于，所述多个LBP指示所述频谱图的所述多个块中的每一块中的像素值、阈值转变和相应像素位置。

5.根据在前的任一项权利要求所述的方法，其特征在于，所述码本直方图的创建进一步包括：

使用所述LBP直方图与所述码字之间的余弦距离来确定所述LBP直方图与所述码字之间的所述余弦距离，以及

基于所述余弦距离将所述LBP直方图指派给所述码本直方图中的码字。

6.根据在前的任一项权利要求所述的方法，其特征在于，进一步包括通过使用在所述LBP直方图中的每一LBP直方图的相应块之外的像素值针对所述LBP直方图中的每一LBP直方图进行内插的步骤。

7.根据在前的任一项权利要求所述的方法，其特征在于，每一相应LBP直方图为由多个均匀配置与不均匀配置所定义的所述频谱图的所述多个块中的每一块之间的关系的直方图。

8.根据在前的任一项权利要求所述的方法，其特征在于，所述频谱图的所述多个块由在0Hz到900Hz频带内的块、在900Hz到2000Hz频带内的块和在2000Hz到8000Hz频带内的块定义。

9.根据在前的任一项权利要求所述的方法，其特征在于，所述LBP由如下算法定义：

{LBP}_{P, R} = Σ_{i = 0}^{P - 1} f (g_{i} - μ) 2^{P}, f (x) = \{\begin{matrix} 1, x &GreaterEqual; μ \\ 0, x < μ \end{matrix},

其中g_i为相邻像素的值，μ为特定块之上的均值，P为所述特定块中的像素的数目，R为邻域的半径，且其中g_i的坐标为Rcos(2πi/P)、sin(2πi/P)。

10.一种方法，其特征在于，包括以下步骤：

接收指示音频输入的音频信号频谱图；

基于所述频谱图的邻近像素的比较构建多个局部二进制模式(LBP)；

从所述频谱图的所述多个块中的每一块的所述相应LBP直方图中识别LBP直方图的集群；

基于所述集群产生含有多个码字的码本；

将所述LBP直方图映射到所述码本的所述码字以创建码本直方图；以及

使用所述LBP直方图作为机器学习算法用的特征来训练机器学习算法。

11.根据权利要求10所述的方法，其特征在于，进一步包括使用在所述LBP直方图中的每一LBP直方图的相应块之外的像素值针对所述LBP直方图中的每一LBP直方图进行内插。

12.根据权利要求10或11所述的方法，其特征在于，每一相应LBP直方图将所述频谱图的所述多个块中的每一块映射到多个均匀配置和不均匀配置中。

13.根据权利要求10到12中任一项权利要求所述的方法，其特征在于，所述频谱图的所述多个块由在0Hz到900Hz频带内的块、在900Hz到2000Hz频带内的块和在2000Hz到8000Hz频带内的块定义。

14.根据权利要求10到13中任一项权利要求所述的方法，其特征在于，所述机器学习算法在支持向量机内。

15.根据权利要求10到14中任一项权利要求所述的方法，其特征在于，所述LBP由如下算法定义：

{LBP}_{P, R} = Σ_{i = 0}^{P - 1} f (g_{i} - μ) 2^{P}, f (x) = \{\begin{matrix} 1, x &GreaterEqual; μ \\ 0, x < μ \end{matrix},