CN112908340A - 一种基于全局-局部加窗的声音特征快速提取方法 - Google Patents

一种基于全局-局部加窗的声音特征快速提取方法 Download PDF

Info

Publication number
CN112908340A
CN112908340A CN202110174555.8A CN202110174555A CN112908340A CN 112908340 A CN112908340 A CN 112908340A CN 202110174555 A CN202110174555 A CN 202110174555A CN 112908340 A CN112908340 A CN 112908340A
Authority
CN
China
Prior art keywords
local
sound
windowing
global
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110174555.8A
Other languages
English (en)
Inventor
梁东贵
李韫莛
曾宪毅
李紫楠
梁哲辉
陈敏
顾安朋
熊伟
陈光辉
李莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd filed Critical Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority to CN202110174555.8A priority Critical patent/CN112908340A/zh
Publication of CN112908340A publication Critical patent/CN112908340A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于全局‑局部加窗的声音特征快速提取方法,包括如下步骤:采集声音样本,形成声波图谱,并对其进行预加重;对预加重处理后的声波进行全局加窗和局部加窗;根据全局加窗结果确定帧长和帧移;进行局部加窗进行离散的傅里叶变换。以单个正弦函数作为基向量,构造帧向量;构造局部窗矩阵;进行主成分分析,挑选具有代表性的特征;形成全局窗口矩阵,进行特征值求解;利用所求得特征值确定该声源的声音特征。根据本发明能够有效地对声音信号进行快速处理,提取目标声源的声音特征。该声音特征能够用于用户识别、语音情感分析、刑事侦查等多种现实场景。

Description

一种基于全局-局部加窗的声音特征快速提取方法
技术领域
本发明涉及一种声音特征提取技术,更具体的说,涉及一种基于全局-局部加窗的声音特征快速提取方法。
背景技术
语音是人类之间沟通交流的最直接也是最快捷方便的一种手段,而实现人类与计算机之间畅通无阻的语音交流,一直是人类追求的一个梦想。伴随着移动智能设备的普及,各家移动设备的厂家也开始在自家的设备上集成了语音识别系统,像Apple Siri、Microsoft Cortana、Google Now等语音助手的出现,使得人们在使用移动设备的同时,也能够进行语音交流,极大的方便了人们的生活。但是此类助手也存在一些尴尬的瞬间,例如在一些工作场合或者聚会的场合,某人的一句“Hey Siri”就可能唤醒多台苹果设备,使用者难免尴尬困惑。
语音识别的核心是通过预先训练说话人的声音样本,提取出相对应的声音特征放入到系统中,应用的时候将待验证的语音进行特征提取并与系统中预先存入的声音特征进行匹配,以确定说话人的身份。
当前大多数声纹提取技术都是基于MFCC、Fbank等方式方法来进行声音特征提取,但是它们基本都是将时域的信息转换为频域进行提取,要经过多次傅里叶变换,这无疑增加了时间花费,并且加窗过程很少有考虑到全局特征。
发明内容
本发明的目的旨在解决现有声音特征提取速度慢,未能考虑全局对局部影响的问题。本发明的目的通过下述的技术方案实现:
一种基于全局-局部加窗的声音特征快速提取方法,其特征在于包括以下步骤:
(1)采集声音样本,形成声波图谱,预处理并对其进行预加重;
(2)对预加重处理后的声波进行全局加窗和局部加窗;
(3)根据全局加窗结果确定帧长和帧移。
(1)(4)进行局部加窗,并对其进行离散傅里叶变换,以单个正弦函数作为基向量,构造帧向量;
(5)构造局部窗矩阵。
(6)进行主成分分析,挑选具有代表性的特征;
(7)形成全局窗口矩阵,进行特征值求解,利用所求得特征值确定该声源的声音特征。
1、步骤(1)具体的实现方法如下,采用一阶偏导与拉普拉斯算子的组合对局部平滑曲线进行加重。
Figure BDA0002940224640000021
其中,k1和k2是两个系数,f是x的波普函数,w是对采样点处的加重权重。然后将其通过一个高通滤波器:
H(z)=1-lnw×z-1
在语音和图像信号,尤其是本方法中处理的目标函数声波图谱,在低频段处的能量大,而在高频段处能量小,也就是低频段信噪比大,高频信噪比低,我们采用本方法中的增大高频段信噪比的方法,从而减低在频率高处噪音对声音特征提取的影响。
本步骤中所述的预处理过程包括但不限于:数据筛选、降噪、信号转化等常规语音信号处理过程。
2、步骤(2)具体的实现方法如下,对采用步骤(1)所述方法预处理之后的声波进行全局层次加窗。将定义域为l的声波图谱分为w个局部窗口,应满足如下条件:
Figure BDA0002940224640000022
其中,l、l1、l2、的计量单位应该为毫秒ms,并且l1、l2是一个经验参数,取值一般可以采取与现行办法相同的值。k3、k4都是一个非负整数参数。
3、步骤(3)具体的实现方法如下,在基于步骤(2)的基础上,在每一个窗口内,进行确定帧的长度和帧移。帧的长度l3应该满足l11<l3=<l22。帧移长度l4的应该满足如下:
Figure BDA0002940224640000031
4、步骤(4)具体的实现方法如下,在基于步骤(3)确定帧长和帧移之后。进行局部加窗,并采用离散傅里叶变换对每一帧声波图谱进行分解,分解得到:
Figure BDA0002940224640000032
确定合适的前N项,分别以正弦和余弦为基,构造出两个向量。构造方法如下:
sN(x)=s1(x)+s2(x)
Figure BDA0002940224640000033
Figure BDA0002940224640000034
Figure BDA0002940224640000035
Figure BDA0002940224640000036
在上面的流程中,我们将sN分解为只含正弦基的s1和只含余弦基的s2,在根据其各个基的系数产生两个向量v1和v2。再通过这两个向量的非线性结合,构造该帧的帧向量如下:
Figure BDA0002940224640000037
5、步骤(5)具体的实现方法如下,在基于步骤(4)的途径构造帧向量之后,构建每个局部窗的特征矩阵,由于每个帧都有1个N+1维向量来表征。考虑到语音是一个时序表征,前面的语音对后面有影响,所以,在同一个子窗口内,每帧都有相关的信息会传给后一个帧。在形成局部窗口的特征矩阵时,将相邻两个帧的特征向量做差,再以合适的方式添加到下一个帧的特征向量中,形成局部窗口特征矩阵的下一行。具体计算如下:
Figure BDA0002940224640000041
r2=v2+ln|v2-v1|
Figure BDA0002940224640000042
rn=vn+ln|vn-vn-1|
Figure BDA0002940224640000043
r1、r2、rn均是局部窗口矩阵M的行向量,n表示该局部窗口拥有的帧数量。
6、步骤(6)具体的实现方法如下,基于步骤(5)的方法构建的局部窗口矩阵,对其采用主成分分析,将局部窗口矩阵降维到
Figure BDA0002940224640000044
维。所述的主成分分析过程包括但不限于:相关数据的处理、PCA算法的应用、其他可用于主成分分析的算法。
7、步骤(7)具体的实现方法如下,在步骤(6)描述,得到每个局部窗口矩阵
Figure BDA0002940224640000045
维。对所得的w个局部窗口矩阵进行拼接,形成整个全局窗口的矩阵。进行特征值求解,得到每个特征值对应的特征向量。挑选最大的特征值对应的对应向量作为声音特征,若对应不止一个特征向量,则选择二范式最大的那个。
所述的特征值求解过程包括但不限于:特征值求解、计算特征向量、数据处理等常规特征值求解过程。
2、在能够表征声音特征的向量后,可以采用计算相似度的方法进行特征普配,确定声音是否来自同一人。
所述计算相似度方法包括但不限于:余弦相似度、欧几里得距离、曼哈顿距离、皮尔森相关系数。
附图说明
图1为实施例的基于全局-局部加窗的声音特征快速提取方法流程示意图;
图2为实施例的基于全局-局部加窗的声音特征快速提取方法的声音特征匹配具体实施流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不限定本发明。
实施例
如图1所示,描述的是一种基于全局-局部加窗的声音特征快速提取方法的主要流程和组成部分;图2描述了实施例中声音特征匹配具体实施流程图。
一种基于全局-局部加窗的声音特征快速提取方法,总体的方法方案包括如下步骤:
(1)采集声音样本,形成声波图谱,预处理并对其进行预加重。
(2)对预加重处理后的声波进行全局加窗和局部加窗。
(3)根据全局加窗结果确定帧长和帧移。
(4)进行局部加窗进行离散的傅里叶变换。以单个正弦函数作为基向量,构造帧向量。
(5)构造局部窗矩阵。
(6)进行主成分分析,挑选具有代表性的特征。
(7)形成全局窗口矩阵,进行特征值求解。利用所求得特征值确定该声源的声音特征
1、实列中,采用一阶偏导与拉普拉斯算子的组合对局部平滑曲线进行加重。
Figure BDA0002940224640000051
其中,k1和k2是两个系数,f是x的波普函数,w是对采样点处的加重权重。然后将其通过一个高通滤波器:
H(z)=1-lnw×z-1
在语音和图像信号,尤其是本方法中处理的目标函数声波图谱,在低频段处的能量大,而在高频段处能量小,也就是低频段信噪比大,高频信噪比低,我们采用本方法中的增大高频段信噪比的方法,从而减低在频率高处噪音对声音特征提取的影响。
本步骤中所述的预处理过程包括但不限于:数据筛选、降噪、信号转化等常规语音信号处理过程。
3、实例中,对采用步骤(1)所述方法预处理之后的声波进行全局层次加窗。将定义域为l的声波图谱分为w个局部窗口,应满足如下条件:
Figure BDA0002940224640000061
其中,l、l1、l2、的计量单位应该为毫秒ms,并且l1、l2是一个经验参数,取值一般可以采取与现行办法相同的值。k3、k4都是一个非负整数参数。
3、实例中,在基于步骤(2)的基础上,在每一个窗口内,进行确定帧的长度和帧移。帧的长度l3应该满足l11<l3=<l22。帧移长度l4的应该满足如下:
Figure BDA0002940224640000062
4、实例中,在基于步骤(3)确定帧长和帧移之后。进行局部加窗,并采用离散傅里叶变换对每一帧声波图谱进行分解,分解得到:
Figure BDA0002940224640000063
确定合适的前N项,分别以正弦和余弦为基,构造出两个向量。构造方法如下:
sN(x)=s1(x)+s2(x)
Figure BDA0002940224640000064
Figure BDA0002940224640000065
Figure BDA0002940224640000066
Figure BDA0002940224640000071
在上面的流程中,我们将sN分解为只含正弦基的s1和只含余弦基的s2,在根据其各个基的系数产生两个向量v1和v2。再通过这两个向量的非线性结合,构造该帧的帧向量如下:
Figure BDA0002940224640000072
6、实例中,在基于步骤(4)的途径构造帧向量之后,构建每个局部窗的特征矩阵,由于每个帧都有1个N+1维向量来表征。考虑到语音是一个时序表征,前面的语音对后面有影响,所以,在同一个子窗口内,每帧都有相关的信息会传给后一个帧。在形成局部窗口的特征矩阵时,将相邻两个帧的特征向量做差,再以合适的方式添加到下一个帧的特征向量中,形成局部窗口特征矩阵的下一行。具体计算如下:
Figure BDA0002940224640000073
r2=v2+ln|v2-v1|
Figure BDA0002940224640000074
rn=vn+ln|vn-vn-1|
Figure BDA0002940224640000075
r1、r2、rn均是局部窗口矩阵M的行向量,n表示该局部窗口拥有的帧数量。
6、实例中,基于步骤(5)的方法构建的局部窗口矩阵,对其采用主成分分析,将局部窗口矩阵降维到
Figure BDA0002940224640000076
维。所述的主成分分析过程包括但不限于:相关数据的处理、PCA算法的应用、其他可用于主成分分析的算法。
7、步骤(7)具体的实现方法如下,在步骤(6)描述,得到每个局部窗口矩阵
Figure BDA0002940224640000081
维。对所得的w个局部窗口举证进行拼接,形成整个全局窗口的矩阵。进行特征值求解,得到每个特征值对应的特征向量。挑选最大的特征值对应的对应向量作为声音特征,若对应不止一个特征向量,则选择二范式最大的那个。
所述的特征值求解过程包括但不限于:特征值求解、计算特征向量、数据处理等常规特征值求解过程。
7、实例中,在获得能够表征声音特征的向量后,可以采用计算余弦相似度的方法进行特征普配,确定声音是否来自同一人。具体流程如图2所示。

Claims (8)

1.一种基于全局-局部加窗的声音特征快速提取方法,其特征在于包括以下步骤:
(1)采集声音样本,形成声波图谱,预处理并对其进行预加重;
(2)对预加重处理后的声波进行全局加窗和局部加窗;
(3)根据全局加窗结果确定帧长和帧移;
(4)进行局部加窗,并对其进行离散傅里叶变换,以单个正弦函数作为基向量,构造帧向量;
(5)构造局部窗矩阵;
(6)进行主成分分析,挑选具有代表性的特征;
(7)形成全局窗口矩阵,进行特征值求解,利用所求得特征值确定该声源的声音特征。
2.如权利要求1所述的一种基于全局-局部加窗的声音特征快速提取方法,其特征在于步骤(1)中,采用一阶偏导与拉普拉斯算子的组合对局部平滑曲线进行加重;
Figure FDA0002940224630000011
其中,k1和k2是两个系数,f是x的波普函数,w是对采样点处的加重权重。
3.如权利要求1所述的一种基于全局-局部加窗的声音特征快速提取方法,其特征在于步骤(2)中,对预加重处理后的声波进行全局层次加窗,将定义域为l的声波图谱分为w个局部窗口,应满足如下条件:
Figure FDA0002940224630000012
其中,l、l1、l2、的计量单位应该为毫秒ms,并且l1、l2是一个经验参数,取值一般可以采取与现行办法相同的值,k3、k4都是一个非负整数参数。
4.如权力要求1所述的一种基于全局-局部加窗的声音特征快速提取方法,其特征在于步骤(3)中,根据全局加窗结果确定帧长和帧移,其帧的长度l3应该满足l11<l3=<l22,帧移长度l4的应该满足如下:
Figure FDA0002940224630000021
5.如权利要求1所述的一种基于全局-局部加窗的声音特征快速提取方法,其特征在于步骤(4)中,进行局部加窗,并采用离散傅里叶变换对每一帧声波图谱进行分解,分解得到:
Figure FDA0002940224630000022
其中:sN(x)是原声波,a0、an、bn是系数,f是已知频率,N是控制参数;确定合适的N,分别以正弦和余弦为基,构造处两个向量,在通过这两个向量的非线性结合,构造该帧的帧向量。
6.如权利要求1所述的一种基于全局-局部加窗的声音特征快速提取方法,其特征在于步骤(5)中,构造局部窗矩阵时,在同一个子窗口内,每帧都有相关的信息会传给后一个帧,在形成局部窗口的特征矩阵时,将相邻两个帧的特征向量做差,再以合适的方式添加到下一个帧的特征向量中,形成局部窗口特征矩阵的下一行。
7.如权利要求1所述的一种基于全局-局部加窗的声音特征快速提取方法,其特征在于步骤(6)中,进行主成分分析,挑选具有代表性的特征,将局部窗口矩阵降维到
Figure FDA0002940224630000023
维。
8.如权利要求7所述的一种基于全局-局部加窗的声音特征快速提取方法,其特征在于:将局部窗口矩阵降维到
Figure FDA0002940224630000024
维后,得到每个局部窗口矩阵
Figure FDA0002940224630000025
维,对所得的w个局部窗口举证进行拼接,形成整个全局窗口的矩阵;进行特征值求解,得到每个特征值对应的特征向量,挑选最大的特征值对应的对应向量作为声音特征,若对应不止一个特征向量,则选择二范式最大的那个。
CN202110174555.8A 2021-02-07 2021-02-07 一种基于全局-局部加窗的声音特征快速提取方法 Pending CN112908340A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110174555.8A CN112908340A (zh) 2021-02-07 2021-02-07 一种基于全局-局部加窗的声音特征快速提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110174555.8A CN112908340A (zh) 2021-02-07 2021-02-07 一种基于全局-局部加窗的声音特征快速提取方法

Publications (1)

Publication Number Publication Date
CN112908340A true CN112908340A (zh) 2021-06-04

Family

ID=76122849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110174555.8A Pending CN112908340A (zh) 2021-02-07 2021-02-07 一种基于全局-局部加窗的声音特征快速提取方法

Country Status (1)

Country Link
CN (1) CN112908340A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114387975A (zh) * 2021-12-28 2022-04-22 北京中电慧声科技有限公司 应用于混响环境声纹识别的基频信息提取方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114387975A (zh) * 2021-12-28 2022-04-22 北京中电慧声科技有限公司 应用于混响环境声纹识别的基频信息提取方法及装置

Similar Documents

Publication Publication Date Title
CN108597496B (zh) 一种基于生成式对抗网络的语音生成方法及装置
US10373609B2 (en) Voice recognition method and apparatus
Bala et al. Voice command recognition system based on MFCC and DTW
Thakur et al. Speech recognition using euclidean distance
Nasr et al. Speaker identification based on normalized pitch frequency and Mel Frequency Cepstral Coefficients
CN112331218B (zh) 一种针对多说话人的单通道语音分离方法和装置
CN108520756B (zh) 一种说话人语音分离的方法及装置
CN112786059A (zh) 一种基于人工智能的声纹特征提取方法及装置
CN110942766A (zh) 音频事件检测方法、系统、移动终端及存储介质
Todkar et al. Speaker recognition techniques: A review
Sharma et al. Study of robust feature extraction techniques for speech recognition system
Do et al. Speech source separation using variational autoencoder and bandpass filter
Shabani et al. Speech recognition using principal components analysis and neural networks
Ramgire et al. A survey on speaker recognition with various feature extraction and classification techniques
Zulkifly et al. Relative spectral-perceptual linear prediction (RASTA-PLP) speech signals analysis using singular value decomposition (SVD)
Biagetti et al. Speaker identification in noisy conditions using short sequences of speech frames
CN112183582A (zh) 一种多特征融合的水下目标识别方法
CN112017658A (zh) 一种基于智能人机交互的操作控制系统
CN112908340A (zh) 一种基于全局-局部加窗的声音特征快速提取方法
CN112466276A (zh) 一种语音合成系统训练方法、装置以及可读存储介质
CN116312561A (zh) 一种电力调度系统人员声纹识别鉴权降噪和语音增强方法、系统及装置
Antonova et al. Development of an authentication system using voice verification
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
Mardhotillah et al. Speaker recognition for digital forensic audio analysis using support vector machine
Aggarwal et al. Grid search analysis of nu-SVC for text-dependent speaker-identification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination