CN112908340A

CN112908340A - 一种基于全局-局部加窗的声音特征快速提取方法

Info

Publication number: CN112908340A
Application number: CN202110174555.8A
Authority: CN
Inventors: 梁东贵; 李韫莛; 曾宪毅; 李紫楠; 梁哲辉; 陈敏; 顾安朋; 熊伟; 陈光辉; 李莹
Original assignee: Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2021-02-07
Filing date: 2021-02-07
Publication date: 2021-06-04

Abstract

本发明公开了一种基于全局‑局部加窗的声音特征快速提取方法，包括如下步骤：采集声音样本，形成声波图谱，并对其进行预加重；对预加重处理后的声波进行全局加窗和局部加窗；根据全局加窗结果确定帧长和帧移；进行局部加窗进行离散的傅里叶变换。以单个正弦函数作为基向量，构造帧向量；构造局部窗矩阵；进行主成分分析，挑选具有代表性的特征；形成全局窗口矩阵，进行特征值求解；利用所求得特征值确定该声源的声音特征。根据本发明能够有效地对声音信号进行快速处理，提取目标声源的声音特征。该声音特征能够用于用户识别、语音情感分析、刑事侦查等多种现实场景。

Description

一种基于全局-局部加窗的声音特征快速提取方法

技术领域

本发明涉及一种声音特征提取技术，更具体的说，涉及一种基于全局-局部加窗的声音特征快速提取方法。

背景技术

语音是人类之间沟通交流的最直接也是最快捷方便的一种手段，而实现人类与计算机之间畅通无阻的语音交流，一直是人类追求的一个梦想。伴随着移动智能设备的普及，各家移动设备的厂家也开始在自家的设备上集成了语音识别系统，像Apple Siri、Microsoft Cortana、Google Now等语音助手的出现，使得人们在使用移动设备的同时，也能够进行语音交流，极大的方便了人们的生活。但是此类助手也存在一些尴尬的瞬间，例如在一些工作场合或者聚会的场合，某人的一句“Hey Siri”就可能唤醒多台苹果设备，使用者难免尴尬困惑。

语音识别的核心是通过预先训练说话人的声音样本，提取出相对应的声音特征放入到系统中，应用的时候将待验证的语音进行特征提取并与系统中预先存入的声音特征进行匹配，以确定说话人的身份。

当前大多数声纹提取技术都是基于MFCC、Fbank等方式方法来进行声音特征提取，但是它们基本都是将时域的信息转换为频域进行提取，要经过多次傅里叶变换，这无疑增加了时间花费，并且加窗过程很少有考虑到全局特征。

发明内容

本发明的目的旨在解决现有声音特征提取速度慢，未能考虑全局对局部影响的问题。本发明的目的通过下述的技术方案实现：

一种基于全局-局部加窗的声音特征快速提取方法，其特征在于包括以下步骤：

(1)采集声音样本，形成声波图谱，预处理并对其进行预加重；

(2)对预加重处理后的声波进行全局加窗和局部加窗；

(3)根据全局加窗结果确定帧长和帧移。

(1)(4)进行局部加窗，并对其进行离散傅里叶变换，以单个正弦函数作为基向量，构造帧向量；

(5)构造局部窗矩阵。

(6)进行主成分分析，挑选具有代表性的特征；

(7)形成全局窗口矩阵，进行特征值求解，利用所求得特征值确定该声源的声音特征。

1、步骤(1)具体的实现方法如下，采用一阶偏导与拉普拉斯算子的组合对局部平滑曲线进行加重。

其中，k₁和k₂是两个系数，f是x的波普函数，w是对采样点处的加重权重。然后将其通过一个高通滤波器：

H(z)＝1-lnw×z^-1

在语音和图像信号，尤其是本方法中处理的目标函数声波图谱，在低频段处的能量大，而在高频段处能量小，也就是低频段信噪比大，高频信噪比低，我们采用本方法中的增大高频段信噪比的方法，从而减低在频率高处噪音对声音特征提取的影响。

本步骤中所述的预处理过程包括但不限于：数据筛选、降噪、信号转化等常规语音信号处理过程。

2、步骤(2)具体的实现方法如下，对采用步骤(1)所述方法预处理之后的声波进行全局层次加窗。将定义域为l的声波图谱分为w个局部窗口，应满足如下条件：

其中，l、l₁、l₂、的计量单位应该为毫秒ms，并且l₁、l₂是一个经验参数，取值一般可以采取与现行办法相同的值。k₃、k₄都是一个非负整数参数。

3、步骤(3)具体的实现方法如下，在基于步骤(2)的基础上，在每一个窗口内，进行确定帧的长度和帧移。帧的长度l₃应该满足l₁₁＜l₃＝＜l₂₂。帧移长度l₄的应该满足如下：

4、步骤(4)具体的实现方法如下，在基于步骤(3)确定帧长和帧移之后。进行局部加窗，并采用离散傅里叶变换对每一帧声波图谱进行分解，分解得到：

确定合适的前N项，分别以正弦和余弦为基，构造出两个向量。构造方法如下：

s_N(x)＝s₁(x)+s₂(x)

在上面的流程中，我们将s_N分解为只含正弦基的s₁和只含余弦基的s₂，在根据其各个基的系数产生两个向量v₁和v₂。再通过这两个向量的非线性结合，构造该帧的帧向量如下：

5、步骤(5)具体的实现方法如下，在基于步骤(4)的途径构造帧向量之后，构建每个局部窗的特征矩阵，由于每个帧都有1个N+1维向量来表征。考虑到语音是一个时序表征，前面的语音对后面有影响，所以，在同一个子窗口内，每帧都有相关的信息会传给后一个帧。在形成局部窗口的特征矩阵时，将相邻两个帧的特征向量做差，再以合适的方式添加到下一个帧的特征向量中，形成局部窗口特征矩阵的下一行。具体计算如下：

r₂＝v₂+ln|v₂-v₁|

r_n＝v_n+ln|v_n-v_n-1|

r₁、r₂、r_n均是局部窗口矩阵M的行向量，n表示该局部窗口拥有的帧数量。

6、步骤(6)具体的实现方法如下，基于步骤(5)的方法构建的局部窗口矩阵，对其采用主成分分析，将局部窗口矩阵降维到

维。所述的主成分分析过程包括但不限于：相关数据的处理、PCA算法的应用、其他可用于主成分分析的算法。

7、步骤(7)具体的实现方法如下，在步骤(6)描述，得到每个局部窗口矩阵

维。对所得的w个局部窗口矩阵进行拼接，形成整个全局窗口的矩阵。进行特征值求解，得到每个特征值对应的特征向量。挑选最大的特征值对应的对应向量作为声音特征，若对应不止一个特征向量，则选择二范式最大的那个。

所述的特征值求解过程包括但不限于：特征值求解、计算特征向量、数据处理等常规特征值求解过程。

2、在能够表征声音特征的向量后，可以采用计算相似度的方法进行特征普配，确定声音是否来自同一人。

所述计算相似度方法包括但不限于：余弦相似度、欧几里得距离、曼哈顿距离、皮尔森相关系数。

附图说明

图1为实施例的基于全局-局部加窗的声音特征快速提取方法流程示意图；

图2为实施例的基于全局-局部加窗的声音特征快速提取方法的声音特征匹配具体实施流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不限定本发明。

实施例

如图1所示，描述的是一种基于全局-局部加窗的声音特征快速提取方法的主要流程和组成部分；图2描述了实施例中声音特征匹配具体实施流程图。

一种基于全局-局部加窗的声音特征快速提取方法，总体的方法方案包括如下步骤：

(1)采集声音样本，形成声波图谱，预处理并对其进行预加重。

(2)对预加重处理后的声波进行全局加窗和局部加窗。

(3)根据全局加窗结果确定帧长和帧移。

(4)进行局部加窗进行离散的傅里叶变换。以单个正弦函数作为基向量，构造帧向量。

(5)构造局部窗矩阵。

(6)进行主成分分析，挑选具有代表性的特征。

(7)形成全局窗口矩阵，进行特征值求解。利用所求得特征值确定该声源的声音特征

1、实列中，采用一阶偏导与拉普拉斯算子的组合对局部平滑曲线进行加重。

H(z)＝1-lnw×z^-1

3、实例中，对采用步骤(1)所述方法预处理之后的声波进行全局层次加窗。将定义域为l的声波图谱分为w个局部窗口，应满足如下条件：

3、实例中，在基于步骤(2)的基础上，在每一个窗口内，进行确定帧的长度和帧移。帧的长度l₃应该满足l₁₁＜l₃＝＜l₂₂。帧移长度l₄的应该满足如下：

4、实例中，在基于步骤(3)确定帧长和帧移之后。进行局部加窗，并采用离散傅里叶变换对每一帧声波图谱进行分解，分解得到：

s_N(x)＝s₁(x)+s₂(x)

6、实例中，在基于步骤(4)的途径构造帧向量之后，构建每个局部窗的特征矩阵，由于每个帧都有1个N+1维向量来表征。考虑到语音是一个时序表征，前面的语音对后面有影响，所以，在同一个子窗口内，每帧都有相关的信息会传给后一个帧。在形成局部窗口的特征矩阵时，将相邻两个帧的特征向量做差，再以合适的方式添加到下一个帧的特征向量中，形成局部窗口特征矩阵的下一行。具体计算如下：

r₂＝v₂+ln|v₂-v₁|

r_n＝v_n+ln|v_n-v_n-1|

6、实例中，基于步骤(5)的方法构建的局部窗口矩阵，对其采用主成分分析，将局部窗口矩阵降维到

维。对所得的w个局部窗口举证进行拼接，形成整个全局窗口的矩阵。进行特征值求解，得到每个特征值对应的特征向量。挑选最大的特征值对应的对应向量作为声音特征，若对应不止一个特征向量，则选择二范式最大的那个。

7、实例中，在获得能够表征声音特征的向量后，可以采用计算余弦相似度的方法进行特征普配，确定声音是否来自同一人。具体流程如图2所示。

Claims

1.一种基于全局-局部加窗的声音特征快速提取方法，其特征在于包括以下步骤：

(2)对预加重处理后的声波进行全局加窗和局部加窗；

(3)根据全局加窗结果确定帧长和帧移；

(4)进行局部加窗，并对其进行离散傅里叶变换，以单个正弦函数作为基向量，构造帧向量；

(5)构造局部窗矩阵；

(6)进行主成分分析，挑选具有代表性的特征；

2.如权利要求1所述的一种基于全局-局部加窗的声音特征快速提取方法，其特征在于步骤(1)中，采用一阶偏导与拉普拉斯算子的组合对局部平滑曲线进行加重；

其中，k₁和k₂是两个系数，f是x的波普函数，w是对采样点处的加重权重。

3.如权利要求1所述的一种基于全局-局部加窗的声音特征快速提取方法，其特征在于步骤(2)中，对预加重处理后的声波进行全局层次加窗，将定义域为l的声波图谱分为w个局部窗口，应满足如下条件：

其中，l、l₁、l₂、的计量单位应该为毫秒ms，并且l₁、l₂是一个经验参数，取值一般可以采取与现行办法相同的值，k₃、k₄都是一个非负整数参数。

4.如权力要求1所述的一种基于全局-局部加窗的声音特征快速提取方法，其特征在于步骤(3)中，根据全局加窗结果确定帧长和帧移，其帧的长度l₃应该满足l₁₁＜l₃＝＜l₂₂，帧移长度l₄的应该满足如下：

5.如权利要求1所述的一种基于全局-局部加窗的声音特征快速提取方法，其特征在于步骤(4)中，进行局部加窗，并采用离散傅里叶变换对每一帧声波图谱进行分解，分解得到：

其中：s_N(x)是原声波，a₀、a_n、b_n是系数，f是已知频率，N是控制参数；确定合适的N，分别以正弦和余弦为基，构造处两个向量，在通过这两个向量的非线性结合，构造该帧的帧向量。

6.如权利要求1所述的一种基于全局-局部加窗的声音特征快速提取方法，其特征在于步骤(5)中，构造局部窗矩阵时，在同一个子窗口内，每帧都有相关的信息会传给后一个帧，在形成局部窗口的特征矩阵时，将相邻两个帧的特征向量做差，再以合适的方式添加到下一个帧的特征向量中，形成局部窗口特征矩阵的下一行。

7.如权利要求1所述的一种基于全局-局部加窗的声音特征快速提取方法，其特征在于步骤(6)中，进行主成分分析，挑选具有代表性的特征，将局部窗口矩阵降维到

维。

8.如权利要求7所述的一种基于全局-局部加窗的声音特征快速提取方法，其特征在于:将局部窗口矩阵降维到

维后，得到每个局部窗口矩阵

维，对所得的w个局部窗口举证进行拼接，形成整个全局窗口的矩阵；进行特征值求解，得到每个特征值对应的特征向量，挑选最大的特征值对应的对应向量作为声音特征，若对应不止一个特征向量，则选择二范式最大的那个。