CN112908340A - 一种基于全局-局部加窗的声音特征快速提取方法 - Google Patents
一种基于全局-局部加窗的声音特征快速提取方法 Download PDFInfo
- Publication number
- CN112908340A CN112908340A CN202110174555.8A CN202110174555A CN112908340A CN 112908340 A CN112908340 A CN 112908340A CN 202110174555 A CN202110174555 A CN 202110174555A CN 112908340 A CN112908340 A CN 112908340A
- Authority
- CN
- China
- Prior art keywords
- local
- sound
- windowing
- global
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 18
- 239000013598 vector Substances 0.000 claims abstract description 41
- 239000011159 matrix material Substances 0.000 claims abstract description 31
- 230000037433 frameshift Effects 0.000 claims abstract description 11
- 238000000513 principal component analysis Methods 0.000 claims abstract description 10
- 238000001228 spectrum Methods 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 38
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 2
- 238000011840 criminal investigation Methods 0.000 abstract 1
- 230000008451 emotion Effects 0.000 abstract 1
- 230000005236 sound signal Effects 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于全局‑局部加窗的声音特征快速提取方法,包括如下步骤:采集声音样本,形成声波图谱,并对其进行预加重;对预加重处理后的声波进行全局加窗和局部加窗;根据全局加窗结果确定帧长和帧移;进行局部加窗进行离散的傅里叶变换。以单个正弦函数作为基向量,构造帧向量;构造局部窗矩阵;进行主成分分析,挑选具有代表性的特征;形成全局窗口矩阵,进行特征值求解;利用所求得特征值确定该声源的声音特征。根据本发明能够有效地对声音信号进行快速处理,提取目标声源的声音特征。该声音特征能够用于用户识别、语音情感分析、刑事侦查等多种现实场景。
Description
技术领域
本发明涉及一种声音特征提取技术,更具体的说,涉及一种基于全局-局部加窗的声音特征快速提取方法。
背景技术
语音是人类之间沟通交流的最直接也是最快捷方便的一种手段,而实现人类与计算机之间畅通无阻的语音交流,一直是人类追求的一个梦想。伴随着移动智能设备的普及,各家移动设备的厂家也开始在自家的设备上集成了语音识别系统,像Apple Siri、Microsoft Cortana、Google Now等语音助手的出现,使得人们在使用移动设备的同时,也能够进行语音交流,极大的方便了人们的生活。但是此类助手也存在一些尴尬的瞬间,例如在一些工作场合或者聚会的场合,某人的一句“Hey Siri”就可能唤醒多台苹果设备,使用者难免尴尬困惑。
语音识别的核心是通过预先训练说话人的声音样本,提取出相对应的声音特征放入到系统中,应用的时候将待验证的语音进行特征提取并与系统中预先存入的声音特征进行匹配,以确定说话人的身份。
当前大多数声纹提取技术都是基于MFCC、Fbank等方式方法来进行声音特征提取,但是它们基本都是将时域的信息转换为频域进行提取,要经过多次傅里叶变换,这无疑增加了时间花费,并且加窗过程很少有考虑到全局特征。
发明内容
本发明的目的旨在解决现有声音特征提取速度慢,未能考虑全局对局部影响的问题。本发明的目的通过下述的技术方案实现:
一种基于全局-局部加窗的声音特征快速提取方法,其特征在于包括以下步骤:
(1)采集声音样本,形成声波图谱,预处理并对其进行预加重;
(2)对预加重处理后的声波进行全局加窗和局部加窗;
(3)根据全局加窗结果确定帧长和帧移。
(1)(4)进行局部加窗,并对其进行离散傅里叶变换,以单个正弦函数作为基向量,构造帧向量;
(5)构造局部窗矩阵。
(6)进行主成分分析,挑选具有代表性的特征;
(7)形成全局窗口矩阵,进行特征值求解,利用所求得特征值确定该声源的声音特征。
1、步骤(1)具体的实现方法如下,采用一阶偏导与拉普拉斯算子的组合对局部平滑曲线进行加重。
其中,k1和k2是两个系数,f是x的波普函数,w是对采样点处的加重权重。然后将其通过一个高通滤波器:
H(z)=1-lnw×z-1
在语音和图像信号,尤其是本方法中处理的目标函数声波图谱,在低频段处的能量大,而在高频段处能量小,也就是低频段信噪比大,高频信噪比低,我们采用本方法中的增大高频段信噪比的方法,从而减低在频率高处噪音对声音特征提取的影响。
本步骤中所述的预处理过程包括但不限于:数据筛选、降噪、信号转化等常规语音信号处理过程。
2、步骤(2)具体的实现方法如下,对采用步骤(1)所述方法预处理之后的声波进行全局层次加窗。将定义域为l的声波图谱分为w个局部窗口,应满足如下条件:
其中,l、l1、l2、的计量单位应该为毫秒ms,并且l1、l2是一个经验参数,取值一般可以采取与现行办法相同的值。k3、k4都是一个非负整数参数。
3、步骤(3)具体的实现方法如下,在基于步骤(2)的基础上,在每一个窗口内,进行确定帧的长度和帧移。帧的长度l3应该满足l11<l3=<l22。帧移长度l4的应该满足如下:
4、步骤(4)具体的实现方法如下,在基于步骤(3)确定帧长和帧移之后。进行局部加窗,并采用离散傅里叶变换对每一帧声波图谱进行分解,分解得到:
确定合适的前N项,分别以正弦和余弦为基,构造出两个向量。构造方法如下:
sN(x)=s1(x)+s2(x)
在上面的流程中,我们将sN分解为只含正弦基的s1和只含余弦基的s2,在根据其各个基的系数产生两个向量v1和v2。再通过这两个向量的非线性结合,构造该帧的帧向量如下:
5、步骤(5)具体的实现方法如下,在基于步骤(4)的途径构造帧向量之后,构建每个局部窗的特征矩阵,由于每个帧都有1个N+1维向量来表征。考虑到语音是一个时序表征,前面的语音对后面有影响,所以,在同一个子窗口内,每帧都有相关的信息会传给后一个帧。在形成局部窗口的特征矩阵时,将相邻两个帧的特征向量做差,再以合适的方式添加到下一个帧的特征向量中,形成局部窗口特征矩阵的下一行。具体计算如下:
r2=v2+ln|v2-v1|
rn=vn+ln|vn-vn-1|
r1、r2、rn均是局部窗口矩阵M的行向量,n表示该局部窗口拥有的帧数量。
6、步骤(6)具体的实现方法如下,基于步骤(5)的方法构建的局部窗口矩阵,对其采用主成分分析,将局部窗口矩阵降维到维。所述的主成分分析过程包括但不限于:相关数据的处理、PCA算法的应用、其他可用于主成分分析的算法。
7、步骤(7)具体的实现方法如下,在步骤(6)描述,得到每个局部窗口矩阵维。对所得的w个局部窗口矩阵进行拼接,形成整个全局窗口的矩阵。进行特征值求解,得到每个特征值对应的特征向量。挑选最大的特征值对应的对应向量作为声音特征,若对应不止一个特征向量,则选择二范式最大的那个。
所述的特征值求解过程包括但不限于:特征值求解、计算特征向量、数据处理等常规特征值求解过程。
2、在能够表征声音特征的向量后,可以采用计算相似度的方法进行特征普配,确定声音是否来自同一人。
所述计算相似度方法包括但不限于:余弦相似度、欧几里得距离、曼哈顿距离、皮尔森相关系数。
附图说明
图1为实施例的基于全局-局部加窗的声音特征快速提取方法流程示意图;
图2为实施例的基于全局-局部加窗的声音特征快速提取方法的声音特征匹配具体实施流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不限定本发明。
实施例
如图1所示,描述的是一种基于全局-局部加窗的声音特征快速提取方法的主要流程和组成部分;图2描述了实施例中声音特征匹配具体实施流程图。
一种基于全局-局部加窗的声音特征快速提取方法,总体的方法方案包括如下步骤:
(1)采集声音样本,形成声波图谱,预处理并对其进行预加重。
(2)对预加重处理后的声波进行全局加窗和局部加窗。
(3)根据全局加窗结果确定帧长和帧移。
(4)进行局部加窗进行离散的傅里叶变换。以单个正弦函数作为基向量,构造帧向量。
(5)构造局部窗矩阵。
(6)进行主成分分析,挑选具有代表性的特征。
(7)形成全局窗口矩阵,进行特征值求解。利用所求得特征值确定该声源的声音特征
1、实列中,采用一阶偏导与拉普拉斯算子的组合对局部平滑曲线进行加重。
其中,k1和k2是两个系数,f是x的波普函数,w是对采样点处的加重权重。然后将其通过一个高通滤波器:
H(z)=1-lnw×z-1
在语音和图像信号,尤其是本方法中处理的目标函数声波图谱,在低频段处的能量大,而在高频段处能量小,也就是低频段信噪比大,高频信噪比低,我们采用本方法中的增大高频段信噪比的方法,从而减低在频率高处噪音对声音特征提取的影响。
本步骤中所述的预处理过程包括但不限于:数据筛选、降噪、信号转化等常规语音信号处理过程。
3、实例中,对采用步骤(1)所述方法预处理之后的声波进行全局层次加窗。将定义域为l的声波图谱分为w个局部窗口,应满足如下条件:
其中,l、l1、l2、的计量单位应该为毫秒ms,并且l1、l2是一个经验参数,取值一般可以采取与现行办法相同的值。k3、k4都是一个非负整数参数。
3、实例中,在基于步骤(2)的基础上,在每一个窗口内,进行确定帧的长度和帧移。帧的长度l3应该满足l11<l3=<l22。帧移长度l4的应该满足如下:
4、实例中,在基于步骤(3)确定帧长和帧移之后。进行局部加窗,并采用离散傅里叶变换对每一帧声波图谱进行分解,分解得到:
确定合适的前N项,分别以正弦和余弦为基,构造出两个向量。构造方法如下:
sN(x)=s1(x)+s2(x)
在上面的流程中,我们将sN分解为只含正弦基的s1和只含余弦基的s2,在根据其各个基的系数产生两个向量v1和v2。再通过这两个向量的非线性结合,构造该帧的帧向量如下:
6、实例中,在基于步骤(4)的途径构造帧向量之后,构建每个局部窗的特征矩阵,由于每个帧都有1个N+1维向量来表征。考虑到语音是一个时序表征,前面的语音对后面有影响,所以,在同一个子窗口内,每帧都有相关的信息会传给后一个帧。在形成局部窗口的特征矩阵时,将相邻两个帧的特征向量做差,再以合适的方式添加到下一个帧的特征向量中,形成局部窗口特征矩阵的下一行。具体计算如下:
r2=v2+ln|v2-v1|
rn=vn+ln|vn-vn-1|
r1、r2、rn均是局部窗口矩阵M的行向量,n表示该局部窗口拥有的帧数量。
7、步骤(7)具体的实现方法如下,在步骤(6)描述,得到每个局部窗口矩阵维。对所得的w个局部窗口举证进行拼接,形成整个全局窗口的矩阵。进行特征值求解,得到每个特征值对应的特征向量。挑选最大的特征值对应的对应向量作为声音特征,若对应不止一个特征向量,则选择二范式最大的那个。
所述的特征值求解过程包括但不限于:特征值求解、计算特征向量、数据处理等常规特征值求解过程。
7、实例中,在获得能够表征声音特征的向量后,可以采用计算余弦相似度的方法进行特征普配,确定声音是否来自同一人。具体流程如图2所示。
Claims (8)
1.一种基于全局-局部加窗的声音特征快速提取方法,其特征在于包括以下步骤:
(1)采集声音样本,形成声波图谱,预处理并对其进行预加重;
(2)对预加重处理后的声波进行全局加窗和局部加窗;
(3)根据全局加窗结果确定帧长和帧移;
(4)进行局部加窗,并对其进行离散傅里叶变换,以单个正弦函数作为基向量,构造帧向量;
(5)构造局部窗矩阵;
(6)进行主成分分析,挑选具有代表性的特征;
(7)形成全局窗口矩阵,进行特征值求解,利用所求得特征值确定该声源的声音特征。
6.如权利要求1所述的一种基于全局-局部加窗的声音特征快速提取方法,其特征在于步骤(5)中,构造局部窗矩阵时,在同一个子窗口内,每帧都有相关的信息会传给后一个帧,在形成局部窗口的特征矩阵时,将相邻两个帧的特征向量做差,再以合适的方式添加到下一个帧的特征向量中,形成局部窗口特征矩阵的下一行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110174555.8A CN112908340A (zh) | 2021-02-07 | 2021-02-07 | 一种基于全局-局部加窗的声音特征快速提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110174555.8A CN112908340A (zh) | 2021-02-07 | 2021-02-07 | 一种基于全局-局部加窗的声音特征快速提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112908340A true CN112908340A (zh) | 2021-06-04 |
Family
ID=76122849
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110174555.8A Pending CN112908340A (zh) | 2021-02-07 | 2021-02-07 | 一种基于全局-局部加窗的声音特征快速提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112908340A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114387975A (zh) * | 2021-12-28 | 2022-04-22 | 北京中电慧声科技有限公司 | 应用于混响环境声纹识别的基频信息提取方法及装置 |
-
2021
- 2021-02-07 CN CN202110174555.8A patent/CN112908340A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114387975A (zh) * | 2021-12-28 | 2022-04-22 | 北京中电慧声科技有限公司 | 应用于混响环境声纹识别的基频信息提取方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108597496B (zh) | 一种基于生成式对抗网络的语音生成方法及装置 | |
US10373609B2 (en) | Voice recognition method and apparatus | |
Bala et al. | Voice command recognition system based on MFCC and DTW | |
Thakur et al. | Speech recognition using euclidean distance | |
Nasr et al. | Speaker identification based on normalized pitch frequency and Mel Frequency Cepstral Coefficients | |
CN112331218B (zh) | 一种针对多说话人的单通道语音分离方法和装置 | |
CN108520756B (zh) | 一种说话人语音分离的方法及装置 | |
CN112786059A (zh) | 一种基于人工智能的声纹特征提取方法及装置 | |
CN110942766A (zh) | 音频事件检测方法、系统、移动终端及存储介质 | |
Todkar et al. | Speaker recognition techniques: A review | |
Sharma et al. | Study of robust feature extraction techniques for speech recognition system | |
Do et al. | Speech source separation using variational autoencoder and bandpass filter | |
Shabani et al. | Speech recognition using principal components analysis and neural networks | |
Ramgire et al. | A survey on speaker recognition with various feature extraction and classification techniques | |
Zulkifly et al. | Relative spectral-perceptual linear prediction (RASTA-PLP) speech signals analysis using singular value decomposition (SVD) | |
Biagetti et al. | Speaker identification in noisy conditions using short sequences of speech frames | |
CN112183582A (zh) | 一种多特征融合的水下目标识别方法 | |
CN112017658A (zh) | 一种基于智能人机交互的操作控制系统 | |
CN112908340A (zh) | 一种基于全局-局部加窗的声音特征快速提取方法 | |
CN112466276A (zh) | 一种语音合成系统训练方法、装置以及可读存储介质 | |
CN116312561A (zh) | 一种电力调度系统人员声纹识别鉴权降噪和语音增强方法、系统及装置 | |
Antonova et al. | Development of an authentication system using voice verification | |
CN111785262B (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
Mardhotillah et al. | Speaker recognition for digital forensic audio analysis using support vector machine | |
Aggarwal et al. | Grid search analysis of nu-SVC for text-dependent speaker-identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |