CN103456301A

CN103456301A - 一种基于环境声音的场景识别方法及装置及移动终端

Info

Publication number: CN103456301A
Application number: CN2012101679805A
Authority: CN
Inventors: 薛涛; 杜军朝; 刘惠; 刘悦韡; 陈文靖
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2012-05-28
Filing date: 2012-05-28
Publication date: 2013-12-18
Anticipated expiration: 2032-05-28
Also published as: US9542938B2; EP2827326A4; EP2827326A1; US20150120291A1; WO2013177981A1; CN103456301B

Abstract

本发明提供了一种基于环境声音的场景识别方法及装置及移动终端，所述装置包括：声音采集模块、预处理模块、特征提取模块、场景识别模块、数据库；声音采集模块用于采集声音信号并传输到所述预处理模块；预处理模块用于将所述声音信号处理为频域信号并传输至所述特征提取模块；特征提取模块用于从所述频域信号中提取声音特征信息；数据库用于存储不同场景的声音样本模型权重值；识别控制模块用于在预设模型下输入所述声音特征信息将模型输出结果与所述场景声音样本模型权重值进行匹配，并确定所述声音特征信息对应的场景。本发明依靠背景声音信息作为场景的特征来实现定位，使移动终端在保持低能耗的状态下快速准确的识别当前所在的场景。

Description

一种基于环境声音的场景识别方法及装置及移动终端

技术领域

本发明涉及智能终端技术领域，尤其涉及基于环境声音的场景识别方法及装置及移动终端。

背景技术

声音识别技术广泛应用于通讯系统，例如，在移动通信系统中应用声音识别检测技术，可以提高系统的流量处理能力。此外，声音识别技术被越来越多的应用到语音识别的领域，并且技术已经相当成熟，如IBM语音识别输入系统ViaVoice，微软语音识别系统SpeechSDK等等。

随着智能手机在日常生活中越来越常见，语音识别也很好的被运用到智能手机中，iphone就发布了一个语音识别的应用Google Mobile App。该语音搜索的另外一个改进是可以选择口音了，Google都可以顺利识别不同地域性的发音。

由于智能手机的流行，定位技术也是智能手机应用的一大热点，目前，场景识别问题可以利用已经被广泛研究过的基于天线的定位技术（例如WIFI，GSM和GPS）来解决。对于室外定位而言，GPS已经提供了非常理想的识别精度。但是，对于室内定位，当前尚未出现一个理想且全面的定位解决方案。受制于建筑物内部的拓扑和强烈的电磁干扰等因素，天线信号的强度往往会不规则的变化，从而使得感知设备无法进行合理的位置推测。研究发现WIFI信号在一天的不同时间段内波动很大，并且其强度的变化并不均匀，况且我们不能保证WIFI信号在所有环境中都存在。另一方面，基站的信号在不同时间上则显得更加稳定。但是由于其部署的不够密集，其在定位上也遇到了许多困难。另外，这类定位方法往往对基础设施的完善有极高的要求。但是对于发展中区域而言，这样的成本无疑太高了。基于GPS，GSM，WIFI信号的定位，在室内环境中不能工作，或者存在较大的定位误差，不能区分地理位置上比较近的室内场所。

发明内容

本发明要解决的技术问题是提供一种基于环境声音的场景识别方法及装置及移动终端，解决移动终端无法识别当前所在的场景的问题。

为了解决上述技术问题，本发明提供了一种基于环境声音的场景识别装置，所述装置包括：声音采集模块、预处理模块、特征提取模块、场景识别模块、数据库；

所述声音采集模块，用于采集声音信号并传输到所述预处理模块；

所述预处理模块，用于将所述声音信号处理为频域信号并传输至所述特征提取模块；

所述特征提取模块，用于从所述频域信号中提取声音特征信息；

所述数据库，用于存储不同场景的声音样本模型权重值；

所述识别控制模块，用于在预设模型下输入所述声音特征信息将模型输出结果与所述场景声音样本模型权重值进行匹配，并确定所述声音特征信息对应的场景。

进一步地，上述装置还可以具有以下特点：

所述场景是指不同声音环境下的空间场景。

进一步地，上述装置还可以具有以下特点：

所述声音采集模块、所述预处理模块、所述特征提取模块、所述场景识别模块、所述数据库均位于移动终端。

进一步地，上述装置还可以具有以下特点：

所述声音采集模块、所述预处理模块、所述特征提取模块、所述场景识别模块均位于移动终端中，所述数据库位于服务端设备。

进一步地，上述装置还可以具有以下特点：

所述声音采集模块、所述预处理模块、所述特征提取模块均位于移动终端中，所述场景识别模块和所述数据库位于服务端设备；

所述移动终端还包括场景识别控制模块，用于接收声音特征信息并发送至所述服务端设备，还用于接收所述场景识别模块输出的识别结果。

为了解决上述技术问题，本发明还提供了一种移动终端，包括声音采集模块、预处理模块、特征提取模块、场景识别模块、数据库；

所述数据库，用于存储不同场景的声音样本模型权重值；

所述场景识别模块，用于接收所述声音特征信息，在预设模型下输入所述声音特征信息将模型输出结果与所述场景声音样本模型权重值进行匹配，并确定所述声音特征信息对应的场景。

为了解决上述技术问题，本发明还提供了一种移动终端，包括声音采集模块、预处理模块、特征提取模块、场景识别模块；

所述场景识别模块，用于接收所述声音特征信息，还用于从服务端设备接收场景的声音样本模型权重值，在预设模型下输入所述声音特征信息将模型输出结果与所述场景声音样本模型权重值进行匹配，并确定所述声音特征信息对应的场景。

为了解决上述技术问题，本发明还提供了一种移动终端，包括声音采集模块、预处理模块、特征提取模块、识别控制模块；

所述识别控制模块，用于接收所述声音特征信息，将所述声音特征信息发送至服务端设备，并接收服务端设备返回的场景识别结果。

为了解决上述技术问题，本发明还提供了一种基于环境声音的场景识别方法，包括：采集声音信号；

将所述声音信号处理为频域信号；

从所述频域信号中提取声音特征信息；

在预设模型下输入所述声音特征信息将模型输出结果与场景声音样本模型权重值进行匹配，并确定所述声音特征信息对应的场景。

进一步地，上述方法还可以具有以下特点：

所述场景是指不同声音环境下的空间场景。

本发明依靠背景声音信息作为场景的特征来实现定位，使移动终端在保持低能耗的状态下快速准确的识别当前所在的场景。本发明的场景定位可以与天线位置定位互补并且共同提高精度的，提高移动终端性能。

附图说明

图1是现有技术中声音识别的处理流程示意图；

图2是实施例中基于环境声音的场景识别装置的结构示意图；

图3是实施例一中场景识别装置的结构示意图；

图4是实施例二中场景识别装置的结构示意图；

图5是实施例三中场景识别装置的结构示意图；

图6是具体实施例中特征向量提取过程示意图；

图7是具体实施例中场景分类识别模型结构示意图。

具体实施方式

图1是现有技术中声音识别的处理流程示意图，对声音进行分割以及特征提取后通过分类器对声音进行识别。

基于环境声音的场景识别方法包括：采集声音信号；将所述声音信号处理为频域信号；从所述频域信号中提取声音特征信息；在预设模型下输入所述声音特征信息将模型输出结果与场景声音样本模型权重值进行匹配，并确定所述声音特征信息对应的场景。

所述场景是指不同声音环境下的空间场景，例如场景是指以下中的一种：食堂、教室、实验室、宿舍、楼道、羽毛球场、乒乓球场、电梯、会议室、操场和街道。

如图2所示，本方案中基于环境声音的场景识别装置包括：声音采集模块（201）、预处理模块（202）、特征提取模块（203）、场景识别模块（204）、数据库（205）。

声音采集模块（201），用于采集声音信号并传输到所述预处理模块（202）；

预处理模块（202），用于将所述声音信号处理为频域信号并传输至所述特征提取模块（203）；

特征提取模块（203），用于从所述频域信号中提取声音特征信息；

数据库（205），用于存储不同场景的声音样本模型权重值；

识别控制模块（204），用于在预设模型下输入所述声音特征信息将模型输出结果与所述场景声音样本模型权重值进行匹配，并确定所述声音特征信息对应的场景。

预处理模块（202）对采集到的声音信号进行采样，设定采样频率为8000Hz，采集样本长度为15s，再对段声音样本进行分帧操作，每个帧包含256个采样点，即每段帧长为32ms。这样，原始音频就会变成468个长度为32ms的帧。分帧操作的目的在于任何一段声音样本都会随机出现一些或大或小的突发声音，突发声音没有规律可言，并不是能够代表场景特征的声音，会导致声音波形出现较大的毛刺，从而影响声音识别的准确率，时长越短的音频波形表现的越发平稳。但是，帧长过短也会导致运算成本的增加，即计算能耗和耗时的增加。本方案采用了32ms做为每一帧的长度，达到了精确度和计算成本的平衡。

特征提取模块（203）中提取的声音特征可以是梅尔倒谱系数（MFCC），例如13维的MFCC系数。例如，从每段15s声音样本都可以提取出468组13维的特征向量。在计算出每一帧的特征向量后，必须要对这468组特征向量进行算术平均。上述将每段声音样本分成长度为32ms的帧是为了消除声音样本中的毛刺，但是只对每段音频分帧还是不能起到消除毛刺的作用。所以，本方案在对每帧音频提取特征向量后，必须把这468组特征向量进行算术平均，从而得到唯一一组13维特征向量。这样的一组特征向量降低了样本中的毛刺带来的影响，正确的表示了该段场景的特征。

本方案中的预设模型可以是神经网络等分类模型。

本方案使用了一个模式分类领域的算法。该算法分为两个部分，训练部分和识别部分。在训练部分，该算法使用一定规模的训练集，生成若干个我们称之为中间矩阵数据集合。在识别部分，使用这些矩阵与从声音样本中提取的特征向量进行运算，从而获得最终结果，即识别结果。在开发的过程中，所述算法的训练部分不需要写入手机系统，不需要每次识别都进行运算，这样可以很大程度地减少运算时间。所述识别算法使用的训练集采集于每个需要识别的场景，每个场景需要收集160到200段声音样本，并对每段声音样本提取特征向量，把这些声音样本的特征向量统一作为参数传给算法的训练部分，最终得到中间矩阵。这些中间矩阵存储于数据库中，供所述算法的识别部分调用。由于场景识别的准确率需要不断提高，同时需要识别的场景要不断进行更新，所以，本方案中的分类识别算法所需要的中间矩阵就需要不断的更新。随着场景的更新，该技术就会拥有更强大的时效性和可用性。

如图3所示，实施例一中声音采集模块（201）、预处理模块（202）、特征提取模块（203）、场景识别模块（204）、数据库（205）均位于移动终端内。

如图4所示，实施例二中声音采集模块（201）、预处理模块（202）、特征提取模块（203）、场景识别模块（204）均位于移动终端内，数据库（205）位于服务端设备。

如图5所示，实施例三中声音采集模块（201）、预处理模块（202）、特征提取模块（203）均位于移动终端，场景识别模块（204）、数据库（205）位于服务端设备。移动终端还包括场景识别控制模块（206），用于接收声音特征信息并发送至服务端设备，还用于接收所述场景识别模块（204）输出的识别结果。

下面通过具体实施例进行详细说明。

本发明是基于Android系统开发，选用了一台智能手机作为试验机，识别过程包括以下步骤：

步骤1，声音采集过程

由智能手机中的麦克风进行声音采集集工作，采样率为8000Hz，采样编码为16bit，每段声音样本的时长都是15s。

步骤2，场景识别过程

在预处理过程中，对音频进行分帧处理并将信号从时域信号转换为频域信号。实验发现当帧长为256，即时长为32ms时，可以得到最高的识别正确率。同时，在每段音频的开始，都会出现若干个坏点，所以删去每段音频最开始的一些采样点，保证留下的音频采样点都能显示出该段音频的特征。为了节省更多的硬件空间，可以每分出一个帧，就把它作为参数传给特征提取函数进行计算。这样，只需要存储从每个帧提取的特征向量，而不需要浪费控件用于存储每个帧的音频。

提取特征的步骤包括：

步骤2.1，执行快速傅里叶变换，将时域信号变换成频域信号。

X_{a} (k) = Σ_{n = 0}^{N - 1} x (n) e^{- \frac{j 2 π}{N}}, 0 \leq k \leq N

式中，x(n)为输入的音频信号，N为傅里叶变换的点数。

步骤2.2，对信号的频谱幅度求算术平方，可以得到功率谱。

步骤2.3，如图6所示，用一组梅尔频标上线性分布的三角窗滤波器（共24个三角窗滤波器），对信号的功率谱滤波，每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽，以此来模拟人耳的掩蔽效应。其中，梅尔频标

三角滤波器的中心频率为f(y)，y＝1，2，...，24，且三角滤波器的频率响应定义式如下式所示：

H_{y} (k) = \{\begin{matrix} 0, k < f (y - 1) \\ \frac{2 (k - f (y - 1))}{(f (y + 1) - f (y - 1)) (f (y) - f (m - 1))}, f (y - 1) \leq k \leq f (y) \\ \frac{2 (f (y + 1) - k)}{(f (y + 1) - f (y - 1)) (f (y + 1) - f (y))}, f (y) \leq k \leq (y + 1) \\ 0, k &GreaterEqual; f (y + 1) \end{matrix},

式中

Σ_{y = 0}^{23} H_{y} (k) = 1

步骤2.4，对每个通过滤波器的功率频谱取对数，可以得到近似于同态变换的结果S(y)。

S (y) = \ln (Σ_{0}^{23} {| X_{a} (k) |}^{2} H_{y} (k)), 0 \leq y \leq 24

式中，X_a(k)是音频信号的功率谱，H_y(k)是滤波器组。

步骤2.5，再通过离散余弦变换各得到最终的特征向量C(n)。

C (n) = Σ_{y = 0}^{23} S (y) \cos (\frac{πn (y - 0.5)}{24}), 0 \leq n \leq 24

式中，n表示需求得特征向量的维数，设定特征向量有13维，设置n为12即可。

步骤2.6，把所求13维的特征向量存储在内存中，待这段声音样本每帧的特征向量都计算完成的时候，做算术平均，求得该段音频样本的特征向量。

步骤3，场景识别过程

特征向量提取完成后，这组13维的特征向量就要作为参数传给分类识别算法。采用概率神经网络结构（如图7所示），其中，有d个输入层单元，n个模式层单元和c个类别层单元。每一个模式曾但愿能够对它的权重向量和归一化的样本相连x做内积，得到z＝w^tx，然后映射为exp[(z-1)/σ²]。

识别分类算法分为两个部分，即训练部分和识别部分。

训练部分：

步骤3.1，归一化参加训练的样本x为单位长度，也就是说

第一个经过归一化了的样本被至于输入层单元上。

步骤3.2，连接输入单元和第一个模式层单元的那些连接被初始化为w₁＝x₁。然后，从模式层的第一个单元到类别层中代表x₁所属的类别的那个单元之间建立了一个连接。同样地的过程对剩下的各个模式单元都重复进行，即w_k＝x_k，其中k＝1，2，3，…，n。

步骤3.3，在步骤3.2完成后，可以得到一个特殊的网络，即输入层单元与模式层单元之间是完全连通的，而模式层单元到类别层单元之间是系数连接的。记第j个样本的第k个分量记为x_jk，把这个分量到第j个模式层单元的连接权重系数记为w_jk，其中j＝1，2，…，n，k＝1，2，…，d。

在这个算法中出现的矩阵w就是中间矩阵，中间矩阵将会在算法的识别部分中使用到。

算法的识别部分主要是围绕着两个元素进行计算，首先是被称为净激活的net_k=w^tx，利用它构造关于net_k的非线性函数

其中，σ为自定参数，在本算法中被设定为10。其次，就是利用计算出来的判别函数g_i(x)，通过在算法最后计算

来识别出输入此神经网络的声音特征信息的场景。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

Claims

1.一种基于环境声音的场景识别装置，其特征在于，

所述装置包括：声音采集模块、预处理模块、特征提取模块、场景识别模块、数据库；

所述数据库，用于存储不同场景的声音样本模型权重值；

2.如权利要求1所述的装置，其特征在于，

所述场景是指不同声音环境下的空间场景。

3.如权利要求1所述的装置，其特征在于，

4.如权利要求1所述的装置，其特征在于，

5.如权利要求1所述的装置，其特征在于，

6.一种移动终端，其特征在于，

包括声音采集模块、预处理模块、特征提取模块、场景识别模块、数据库；

所述数据库，用于存储不同场景的声音样本模型权重值；

7.一种移动终端，其特征在于，

包括声音采集模块、预处理模块、特征提取模块、场景识别模块；

8.一种移动终端，其特征在于，

包括声音采集模块、预处理模块、特征提取模块、识别控制模块；

9.一种基于环境声音的场景识别方法，其特征在于，

采集声音信号；

将所述声音信号处理为频域信号；

从所述频域信号中提取声音特征信息；

10.如权利要求9所述的方法，其特征在于，

所述场景是指不同声音环境下的空间场景。