CN107204193A

CN107204193A - 基于直方图统计和池化算法的音频场景识别方法及装置

Info

Publication number: CN107204193A
Application number: CN201710438695.5A
Authority: CN
Inventors: 冷严; 齐广慧; 徐新艳; 周耐; 李登旺
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2017-06-12
Filing date: 2017-06-12
Publication date: 2017-09-26
Anticipated expiration: 2037-06-12
Also published as: CN107204193B

Abstract

本发明公开了一种基于直方图统计和池化算法的音频场景识别方法及装置，该方法包括通过训练音频文档创建音频字典；通过直方图统计表征训练集和测试集中的音频文档；通过池化算法增加训练集中各个音频场景的多样性，以及最后通过匹配识别判定测试音频文档的音频场景类别。本发明创新性地提出通过池化算法增加训练集中各个音频场景的多样性；音频场景多样性的增加可以使其涵盖面更广，进而减少训练集和测试集中同一音频场景的差异，提高识别准确率。

Description

基于直方图统计和池化算法的音频场景识别方法及装置

技术领域

本发明属于音频场景识别领域，尤其涉及基于直方图统计和池化算法的音频场景识别方法及装置。

背景技术

音频场景识别技术因其能通过音频信号感知周围环境而广受关注。与视频信号相比，音频信号可以不受光照和遮挡的影响，且能很好地保护个人隐私，因此其具有非常广泛的应用价值。音频场景识别技术可以用于智能机器人，以帮助机器人更好地感知周围环境，进而做出正确的决策；音频场景识别技术还可以用于老年人家居监护和安全监控等诸多领域。

音频场景识别过程中面临的一个技术难题是同一音频场景下的音频文档之间可能存在较大差异，进而增加了识别难度。比如，在办公室场景下，在某些时刻可能有较多的说话声；而在其他时刻可能没有说话声，主要是由静音组成。因此，在同一音频场景下，在不同时刻采集的音频文档可能会有较大差异，这为音频场景的识别增加了难度。假设某一音频场景的训练音频文档和测试音频文档之间存在较大差异，则音频场景的识别准确率必然会较低。

发明内容

本发明的目的就是为了解决上述问题，提供基于直方图统计和池化算法的音频场景识别方法及装置，通过直方图统计来表征音频场景，同时通过池化算法来增加训练集中各个音频场景的多样性。

为了实现上述目的，本发明采用如下技术方案：

基于直方图统计和池化算法的音频场景识别方法，包括：

步骤(1)：创建音频字典；

步骤(2)：根据音频字典将训练集中所有帧映射成音频字，统计训练集里每个音频文档中各个音频字的出现次数，得到音频文档和音频字之间的统计直方图；对统计直方图进行归一化，用归一化直方图表征训练集中各个音频文档；

步骤(3)：通过池化算法增加训练集中各个音频场景的多样性；

步骤(4)：根据音频字典将测试音频文档的帧映射成音频字，统计测试音频文档中各个音频字的出现次数，得到音频文档和音频字之间的统计直方图；对统计直方图进行归一化，用归一化直方图表征测试集中各个音频文档；

步骤(5)：基于训练集中各个音频文档，对测试集中各个音频文档进行匹配识别。

所述步骤(1)创建音频字典的具体过程包括：

步骤(1.1)：对训练音频文档进行分帧处理。根据经验法则，将帧长设定为30毫秒，将音频文档分割成30毫秒长的互不重叠的帧；

步骤(1.2)：对训练音频文档的每个帧提取39维MFCC特征，用MFCC特征表征音频帧；

步骤(1.3)：对训练集中的所有用MFCC特征表征的帧进行k均值聚类，聚类后取簇质心组成音频字典，所述簇质心称为音频字典的音频字。

所述步骤(2)的步骤为：

步骤(2.1)：根据音频字典将训练集中所有帧映射成音频字，映射的方法是：对每个帧，基于欧氏距离从音频字典中找出与其最近邻的音频字，用最近邻的音频字来表示该帧；

步骤(2.2)：统计训练集里每个音频文档中各个音频字的出现次数，得到音频文档和音频字之间的统计直方图；

步骤(2.3)：对统计直方图进行归一化，用归一化直方图来表征每个音频文档。

所述步骤(3)的步骤为：

假设训练集中某一音频场景的音频文档共有M个，记各个音频文档的归一化直方图为x_i，i＝1,2,...,M，x_i表示该音频场景训练音频文档中的第i个音频文档的归一化直方图。对训练集中的每一类音频场景，通过以下具体步骤增加多样性：

步骤(3.1)：采用最小池化算法得到音频文档minx:

min x＝min[x₁,x₂,…,x_M] (1)

其中，min[﹒]表示对集合中的音频文档的每一维求最小值。

步骤(3.2)：采用最大池化算法得到音频文档maxx:

max x＝max[x₁,x₂,…,x_M] (2)

其中，max[﹒]表示对集合中的音频文档的每一维求最大值。

步骤(3.3)：采用平均池化算法得到音频文档avex:

avex＝ave[x₁,x₂,…,x_M] (3)

其中，ave[﹒]表示对集合中的音频文档的每一维求平均值。

步骤(3.4)：将求得的minx、maxx和avex分别进行归一化并放入训练集中以增加该类音频场景的多样性；类似地，对训练集中的每一类音频场景都如此操作，以增加训练集中每一类音频场景的多样性。

所述步骤(4)的步骤为：

步骤(4.1)：对测试音频文档进行分帧处理。和对训练音频文档的处理相同，将帧长设定为30毫秒，将测试音频文档分割成30毫秒长的互不重叠的帧；

步骤(4.2)：对测试音频文档的每个帧提取39维MFCC特征，用所述MFCC特征来表征每个帧；

步骤(4.3)：根据音频字典将测试音频文档的用MFCC特征表征的帧映射成音频字，映射的方法是：对每个帧，基于欧氏距离从音频字典中找出与其最近邻的音频字，用最近邻的音频字来表示该帧；

步骤(4.4)：统计测试音频文档中各个音频字的出现次数，得到音频文档和音频字之间的统计直方图；

步骤(4.5)：对统计直方图进行归一化，用归一化直方图来表征每个测试音频文档。

所述步骤(5)的步骤为：

步骤(5.1)：对测试音频文档，采用KL散度算法，求出测试音频文档和训练集中每个音频文档的差异程度；

步骤(5.2)：将差异最小的训练音频文档所属的音频场景作为测试音频文档的音频场景类别。

基于直方图统计和池化算法的音频场景识别装置，包括：

音频字典创建模块；

训练集中音频文档表征模块：根据音频字典将训练集中所有帧映射成音频字，统计训练集里每个音频文档中各个音频字的出现次数，得到音频文档和音频字之间的统计直方图；对统计直方图进行归一化，用归一化直方图表征训练集中各个音频文档；

训练集中音频场景多样化模块：通过池化算法增加训练集中各个音频场景的多样性；

测试集中音频文档表征模块：根据音频字典将测试音频文档的帧映射成音频字，统计测试音频文档中各个音频字的出现次数，得到音频文档和音频字之间的统计直方图；对统计直方图进行归一化，用归一化直方图表征测试集中各个音频文档；

匹配识别模块：基于训练集中各个音频文档，对测试集中各个音频文档进行匹配识别。

基于直方图统计和池化算法的音频场景识别系统，包括：

存储器，用于存储有用于音频场景识别的计算机程序；

处理器，与存储器相连，用于执行存储器上的计算机程序；所述处理器执行所述程序时实现以下步骤：

步骤(1)：创建音频字典；

一种计算机可读存储介质，其上存储有用于音频场景识别的计算机程序，当处理器执行时使得处理器执行以下步骤：

步骤(1)：创建音频字典；

本发明的有益效果：

(1)本发明提出通过直方图统计来表征音频场景。用直方图统计方法表征音频场景比较直观，而且运算简单，运算速度快，易于满足日常家居监护设备等对算法运算效率的要求。

(2)本发明提出通过池化算法增加训练集中各个音频场景的多样性，音频场景多样性的增加可以使其涵盖面更广，进而减少训练集和测试集中同一音频场景的差异，提高识别准确率。

(3)本发明提出的通过池化算法增加训练集中各个音频场景多样性的方法并不局限于音频场景识别技术，其可以广泛地推广到各个分类识别领域，为其它分类识别领域提供方法借鉴。

附图说明

图1是本发明提出的基于直方图统计和池化算法的音频场景识别方法示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

如图1所示，本发明提出的音频场景识别方法主要分为两大模块：训练过程和识别过程。其中，训练过程包括创建音频字典、通过直方图统计表征训练集中各个音频文档、通过池化算法增加训练集中各个音频场景的多样性三部分；识别过程包括通过直方图统计表征测试集中各个音频文档、匹配识别两部分。以下将对各个部分做详细介绍。

首先介绍训练过程：

(一)创建音频字典

对训练音频文档进行分帧处理。根据经验法则，本发明将帧长设定为30毫秒，将音频文档分割成30毫秒长的互不重叠的帧。表征音频信号最常用的特征是39维MFCC特征，因此本申请对每个帧提取39维MFCC特征，用此特征来表征音频帧。对训练集中的所有用MFCC特征表征的帧进行k均值聚类，聚类后取簇质心组成音频字典，这些簇质心称为音频字典的音频字。

(二)通过直方图统计表征训练集中各个音频文档

首先根据音频字典将训练集中所有帧映射成音频字，映射的方法是：对每个帧，从音频字典中找出与其最近邻(基于欧氏距离)的音频字，用此音频字来表示该帧；其次，统计训练集里每个音频文档中各个音频字的出现次数，得到音频文档和音频字之间的统计直方图，对统计直方图进行归一化，用归一化直方图来表征每个音频文档。

(三)通过池化算法增加训练集中各个音频场景的多样性

在识别阶段，如果测试音频文档和训练音频文档有较大差异，则音频场景识别结果往往较差。为了减少这种差异，使得训练音频文档集尽可能多地覆盖测试集中所出现的各种音频文档类型，本发明提出通过池化算法增加训练集中各个音频场景的多样性。

假设训练集中某一音频场景的音频文档共有M个，记各个音频文档的归一化直方图为x_i，i＝1,2,...,M，x_i表示该音频场景训练音频文档中的第i个音频文档的归一化直方图。本申请分别采用最小池化算法、最大池化算法和平均池化算法对训练集进行扩容，以增加音频场景的多样性。

假设采用最小池化算法得到的音频文档记为minx,则最小池化求算公式为：

min x＝min[x₁,x₂,…,x_M] (1)

其中min[﹒]表示对集合中的音频文档的每一维求最小值，因此求得的minx是和训练音频文档维度相同的向量。

假设采用最大池化算法得到的音频文档记为maxx,则最大池化求算公式为：

max x＝max[x₁,x₂,…,x_M] (2)

其中max[﹒]表示对集合中的音频文档的每一维求最大值，因此求得的maxx是和训练音频文档维度相同的向量。

假设采用平均池化算法得到的音频文档记为avex,则平均池化求算公式为：

avex＝ave[x₁,x₂,…,x_M] (3)

其中ave[﹒]表示对集合中的音频文档的每一维求平均值，因此求得的avex是和训练音频文档维度相同的向量。

将求得的minx、maxx和avex分别进行归一化并放入训练集中以增加该类音频场景的多样性；类似地，对训练集中的每一类音频场景都如此操作，以增加训练集中每一类音频场景的多样性。最小池化算法能重点突出那些在各个音频文档中都频繁出现的音频字，而忽略那些只在个别音频文档中出现的音频字；最大池化算法在突出强调那些在各个音频文档中都频繁出现的音频字的同时，能兼顾那些只在个别音频文档中出现的音频字；平均池化算法可以实现对音频文档中的噪声进行平滑处理，以减少噪声的干扰。

以下介绍识别过程：

(一)通过直方图统计表征测试集中各个音频文档

通过直方图统计表征测试集中各个音频文档的方法和通过直方图统计表征训练集中各个音频文档的方法相同，即：首先对音频文档进行分帧处理和提取MFCC特征，对音频文档的每个帧，从音频字典中找出与其最近邻(基于欧氏距离)的音频字，用此音频字来表示该帧；其次，统计测试集里每个音频文档中各个音频字的出现次数，得到音频文档和音频字之间的统计直方图；最后，对直方图进行归一化，用归一化直方图来表征每个测试音频文档。

(二)匹配识别

对测试音频文档，采用KL散度求其和训练集中每个音频文档的差异程度，将差异最小的训练音频文档所属的音频场景作为测试音频文档的音频场景类别。

基于直方图统计和池化算法的音频场景识别装置，包括：

音频字典创建模块；

基于直方图统计和池化算法的音频场景识别系统，包括：

存储器，用于存储有用于音频场景识别的计算机程序；

步骤(1)：创建音频字典；

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.基于直方图统计和池化算法的音频场景识别方法，其特征是，包括：

步骤(1)：创建音频字典；

2.如权利要求1所述的方法，其特征是，所述步骤(1)创建音频字典的具体过程包括：

步骤(1.1)：对训练音频文档进行分帧处理；

3.如权利要求1所述的方法，其特征是，所述步骤(2)的步骤为：

4.如权利要求1所述的方法，其特征是，所述步骤(3)的步骤为：

步骤(3.1)：采用最小池化算法得到音频文档minx:

min x＝min[x₁,x₂,…,x_M] (1)

其中，min[﹒]表示对集合中的音频文档的每一维求最小值。

步骤(3.2)：采用最大池化算法得到音频文档maxx:

maxx＝max[x₁,x₂,…,x_M] (2)

其中，max[﹒]表示对集合中的音频文档的每一维求最大值。

步骤(3.3)：采用平均池化算法得到音频文档avex:

avex＝ave[x₁,x₂,…,x_M] (3)

其中，ave[﹒]表示对集合中的音频文档的每一维求平均值。

5.如权利要求1所述的方法，其特征是，所述步骤(4)的步骤为：

步骤(4.1)：对测试音频文档进行分帧处理；

6.如权利要求1所述的方法，其特征是，所述步骤(5)的步骤为：

7.如权利要求2所述的方法，其特征是，对训练音频文档进行分帧处理是将帧长设定为30毫秒，将音频文档分割成30毫秒长的互不重叠的帧。

8.基于直方图统计和池化算法的音频场景识别装置，其特征是，包括：

音频字典创建模块；

9.基于直方图统计和池化算法的音频场景识别系统，包括：

存储器，用于存储有用于音频场景识别的计算机程序；

处理器，与存储器相连，用于执行存储器上的计算机程序；其特征是，所述处理器执行所述程序时实现以下步骤：

步骤(1)：创建音频字典；

10.一种计算机可读存储介质，其上存储有用于音频场景识别的计算机程序，其特征是，当处理器执行时使得处理器执行以下步骤：

步骤(1)：创建音频字典；