CN110322887B - 一种多类型音频信号能量特征提取方法 - Google Patents

一种多类型音频信号能量特征提取方法 Download PDF

Info

Publication number
CN110322887B
CN110322887B CN201910351459.9A CN201910351459A CN110322887B CN 110322887 B CN110322887 B CN 110322887B CN 201910351459 A CN201910351459 A CN 201910351459A CN 110322887 B CN110322887 B CN 110322887B
Authority
CN
China
Prior art keywords
audio signal
array
equal
energy
feat
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910351459.9A
Other languages
English (en)
Other versions
CN110322887A (zh
Inventor
邓小涛
张华军
王征华
倪杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Dashengji Technology Co ltd
Original Assignee
Wuhan Dashengji Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Dashengji Technology Co ltd filed Critical Wuhan Dashengji Technology Co ltd
Priority to CN201910351459.9A priority Critical patent/CN110322887B/zh
Publication of CN110322887A publication Critical patent/CN110322887A/zh
Application granted granted Critical
Publication of CN110322887B publication Critical patent/CN110322887B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供一种多类型音频信号能量特征提取方法,选取采样频率,采集说话人的音频信号值;对采集的说话人的音频信号值进行滤波和切片处理,得到若干个一定长度的音频信号帧;建立数组;将每一组音频信号帧与数组相乘,得到局部被放大或者缩小的音频信号切片;对音频信号切片进行幅频分析,计算每一种频率信号的能量;生成一维数组;将所有的音频信号帧的特征形成一个二维数组,作为采集的音频信号的能量特征矩阵;依据该能量特征矩阵得到音频信号每一帧之间能量的变化特征矩阵和不同频率信号之间能量的变化特征矩阵。本发明能获得更加丰富的音频信号能量特征。

Description

一种多类型音频信号能量特征提取方法
技术领域
本发明涉及音频信号能量提取技术领域,具体涉及一种多类型音频信号能量特征提取方法。
背景技术
在对语言信号进行说话人身份识别的应用过程中,往往需要提取说话人的语言特征以进行辨认,而表征一个人特点的特征主要包括频谱、倒频谱、共振峰、基音、反射系数、鼻音、沙哑音等人类的声学特征,以及语义、修辞、发音、言语习惯、韵律、节奏、速度、语调、音量等特征。目前大部分说话人识别系统都是采用声学层面的特征,通过采集语音的电信号进行相关的分析,提取典型的特征以供识别算法进行准确识别和分类。
发明内容
本发明要解决的技术问题是:提供一种多类型音频信号能量特征提取方法,从而获得更加丰富的音频信号能量特征。
本发明为解决上述技术问题所采取的技术方案为:一种多类型音频信号能量特征提取方法,其特征在于:本方法包括以下步骤:
S1、数据采集:
令采样频率为f,采集说话人的音频信号值为s1、s2、s3、……、sn,其中n为采集的音频信号的采样数量;
S2、滤波:
对采集的说话人的音频信号值进行滤波处理,得到s′1、s′2、s′3、……、s′n
S3、切片:
对s′1、s′2、s′3、……、s′n进行切片处理,按照每个切片包含l1个采样点,每两个切片之间有l2个采样点重复的原则进行切割,得到的切片个数为m=floor((n-l1)÷(l1-l2))+1,其中运算符号floor()表示对括号里面的数进行向下取整运算;进行切片处理后,得到m个长度为l1个采样点的音频信号帧
Figure BDA0002044065490000011
其中1≤i≤n-l1+1,i为音频信号帧中每一个元素的序号,s′i
Figure BDA0002044065490000012
为第i组音频信号帧中的第1至第l1个元素;
S4、建立数组H,其中数组H的每一个元素H(i)的表达式计算方法为H(i)=0.54-0.46×cos(2πi/(l1-1)),其中0≤i≤l1-1;
S5、将每一组音频信号帧
Figure BDA0002044065490000021
与数组H相乘,得到局部被放大或者缩小的音频信号切片
Figure BDA0002044065490000022
S6、对音频信号切片
Figure BDA0002044065490000023
进行幅频分析,得到l1个频率、幅值数组对(fk Mk),其中0≤k≤l1,计算每一种频率信号的能量大小Pk,计算公式为Pk=Mk×Mk
S7、生成j个一维数组,每一个数组包含l1个元素,其中每一个数组包含三个位置特征fpl、fpc、fpr,第t个数组中每一个元素值大小满足关系式:
Figure BDA0002044065490000024
公式(1)中t表示数组的序号,1≤t≤12,k表示数组中元素的序号,其中三个位置特征fplt、fpct、fprt分别为第t个数组的位置特征fpl、fpc、fpr,且均为预设值;
S8、将Pk分别与S7中的数组FAt(k)相乘得到结果PFAt(k),将第t个数组PFAt(k)中的l1个元素相加,得到整个音频信号的第t个特征Ft,因此一个音频信号帧获得j个特征;
S9、将所有的m个音频信号帧的特征形成一个m行、j列的二维数组Feat,作为采集的音频信号的能量特征矩阵;Feat的第r行的j个元素为第r帧信号的j个特征值;
S10、将二维数组Feat的第r+1行数值减去第r行数值,得到音频信号每一帧之间能量的变化特征矩阵ΔFeatr,其中1≤r≤m-1;
S11、将二维数组Feat的第c+1列数值减去第c列数值,得到每一个音频信号帧不同频率信号之间能量的变化特征矩阵ΔFeatc,其中1≤c≤j-1。
按上述方法,所述的S2具体为:采用如下公式进行平滑滤波:si′=si-α×si-1,其中α为平滑系数,0.95≤α≤0.97。
按上述方法,所述的j取12。
按上述方法,所述的l1=1102,l2=441。
本发明的有益效果为:通过对采集的音频信号切片和局部放大或缩小处理,然后构件二维数组,从而获得音频信号的能量矩阵及其变化特征矩阵,从而获得更加丰富的音频信号能量特征,非常适合进行各种音频信号的身份特征提取,为获得更加准确的语音身份辨识提供了基础。
附图说明
图1为本发明一实施例的方法原理图。
图2为音频信号切片形成音频信号帧的原理图。
图3为本发明一实施例采集的音频信号曲线图。
图4为本发明一实施例单帧信号滤波前后的对比曲线图。
图5为本发明一实施例采集的音频信号的能量特征矩阵图。
图6为本发明一实施例采集的音频信号的每一帧能量变化率矩阵图。
图7为本发明一实施例采集的音频信号的一帧信号内不同频率信号能量变化矩阵图。
具体实施方式
下面结合具体实例和附图对本发明做进一步说明。
本发明提供一种多类型音频信号能量特征提取方法,如图1所示,本方法包括以下步骤:
S1、数据采集:
令采样频率为f,采集说话人的音频信号值为s1、s2、s3、……、sn,其中n为采集的音频信号的采样数量。
S2、滤波:
为了消除高频信号的影响和改善信噪比,对采集的语音信号进行滤波处理,其处理方法的计算公式为s′i=si-α×si-1,其中α为平滑系数,0.95≤α≤0.97,采样信号滤波后得到信号s′1、s′2、s′3、……、s′n
S3、切片:
由于音频信号在不同时间会出现频率和幅值较大的波动,因此对s′1、s′2、s′3、……、s′n进行切片处理,按照每个切片包含l1个采样点,每两个切片之间有l2个采样点重复的原则进行切割,如图2所示,得到的切片个数为m=floor((n-l1)÷(l1-l2))+1,其中运算符号floor()表示对括号里面的数进行向下取整运算;进行切片处理后,得到m个长度为l1个采样点的音频信号帧
Figure BDA0002044065490000031
其中1≤i≤n-l1+1,i为音频信号帧中每一个元素的序号,s′i
Figure BDA0002044065490000032
为第i组音频信号帧中的第1至第l1个元素;
S4、建立数组H,其中数组H的每一个元素H(i)的表达式计算方法为H(i)=0.54-0.46×cos(2πi/(l1-1)),其中0≤i≤l1-1;
S5、将每一组音频信号帧
Figure BDA0002044065490000041
与数组H相乘,得到局部被放大或者缩小的音频信号切片
Figure BDA0002044065490000042
其中数组中每一个元素sfi′的计算方法为sfi′=s′i×H(i),其中i为音频信号帧中每一个元素的序号。
S6、对音频信号切片
Figure BDA0002044065490000043
进行幅频分析,得到l1个频率、幅值数组对(fk Mk),其中0≤k≤l1,计算每一种频率信号的能量大小Pk,计算公式为Pk=Mk×Mk
S7、生成j个一维数组,每一个数组包含l1个元素,其中每一个数组包含三个位置特征fpl、fpc、fpr,第t个数组中每一个元素值大小满足关系式:
Figure BDA0002044065490000044
公式(1)中t表示数组的序号,1≤t≤12,k表示数组中元素的序号,其中三个位置特征fplt、fpct、fprt分别为第t个数组的位置特征fpl、fpc、fpr,且均为预设值。
本实施例中,取j为12,三个位置特征的值如下表所示:
表1
系数 t=1 t=2 t=3 t=4 t=5 t=6 t=7 t=8 t=9 t=10 t=11 t=12
f<sub>plt</sub> 4 7 10 14 17 22 27 32 38 45 53 62
f<sub>pct</sub> 7 10 14 17 22 27 32 38 45 53 62 72
f<sub>prt</sub> 10 14 17 22 27 32 38 45 53 62 72 83
S8、将Pk分别与S7中的数组FAt(k)相乘得到结果PFAt(k),将第t个数组PFAt(k)中的l1个元素相加,得到整个音频信号的第t个特征Ft,因此一个音频信号帧获得j个特征。
S9、将所有的m个音频信号帧的特征形成一个m行、j列的二维数组Feat,作为采集的音频信号的能量特征矩阵;Feat的第r行的j个元素为第r帧信号的j个特征值。
S10、将二维数组Feat的第r+1行数值减去第r行数值,得到音频信号每一帧之间能量的变化特征矩阵ΔFeatr,其中1≤r≤m-1。
S11、将二维数组Feat的第c+1列数值减去第c列数值,得到每一个音频信号帧不同频率信号之间能量的变化特征矩阵ΔFeatc,其中1≤c≤j-1。
以采样频率f=44100Hz采集一段音频信号,采样点数量n=154350,其信号如附图3所示。令每一个切片的长度l1=1102,切片之间重叠长度l2=441,则采集到的信号可以切分为698帧长度为1102点的数据集合。每一帧采样信号经过S4和S5后得到了如附图4所示的曲线,从附图4可知每一帧音频信号在中间部分进行放大,两端逐渐衰减。经过S6-S9处理后,得到采样音频数据的特征矩阵如附图5所示,其中S7中的数组系数如表1所示。附图5中用颜色深浅表示每一帧信号特征的数值大小,从图中可以发现每一帧信号的特征差异非常清晰。按照S10计算得到音频信号每一帧之间特征的变化率矩阵,其如附图6所示,从附图6可知每一帧信号之间的能量变化比较平缓。按照S11计算得到音频信号同一帧内不同频率信号的能量变化矩阵,其如附图7所示,从附图7可知短时间内不同频率的信号能量差距非常大,可以用来清晰描述声音信号的差异。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。

Claims (4)

1.一种多类型音频信号能量特征提取方法,其特征在于:本方法包括以下步骤:
S1、数据采集:
令采样频率为f,采集说话人的音频信号值为s1、s2、s3、……、sn,其中n为采集的音频信号的采样数量;
S2、滤波:
对采集的说话人的音频信号值进行滤波处理,得到s′1、s′2、s′3、……、s′n
S3、切片:
对s′1、s′2、s′3、……、s′n进行切片处理,按照每个切片包含l1个采样点,每两个切片之间有l2个采样点重复的原则进行切割,得到的切片个数为m=floor((n-l1)÷(l1-l2))+1,其中运算符号floor()表示对括号里面的数进行向下取整运算;进行切片处理后,得到m个长度为l1个采样点的音频信号帧
Figure FDA0002044065480000011
其中1≤i≤n-l1+1,i为音频信号帧中每一个元素的序号,s′i
Figure FDA0002044065480000012
为第i组音频信号帧中的第1至第l1个元素;
S4、建立数组H,其中数组H的每一个元素H(i)的表达式计算方法为H(i)=0.54-0.46×cos(2πi/(l1-1)),其中0≤i≤l1-1;
S5、将每一组音频信号帧
Figure FDA0002044065480000013
与数组H相乘,得到局部被放大或者缩小的音频信号切片
Figure FDA0002044065480000014
S6、对音频信号切片
Figure FDA0002044065480000015
进行幅频分析,得到l1个频率、幅值数组对(fk Mk),其中0≤k≤l1,计算每一种频率信号的能量大小Pk,计算公式为Pk=Mk×Mk
S7、生成j个一维数组,每一个数组包含l1个元素,其中每一个数组包含三个位置特征fpl、fpc、fpr,第t个数组中每一个元素值大小满足关系式:
Figure FDA0002044065480000016
公式(1)中t表示数组的序号,1≤t≤12,k表示数组中元素的序号,其中三个位置特征fplt、fpct、fprt分别为第t个数组的位置特征fpl、fpc、fpr,且均为预设值;
S8、将Pk分别与S7中的数组FAt(k)相乘得到结果PFAt(k),将第t个数组PFAt(k)中的l1个元素相加,得到整个音频信号的第t个特征Ft,因此一个音频信号帧获得j个特征;
S9、将所有的m个音频信号帧的特征形成一个m行、j列的二维数组Feat,作为采集的音频信号的能量特征矩阵;Feat的第r行的j个元素为第r帧信号的j个特征值;
S10、将二维数组Feat的第r+1行数值减去第r行数值,得到音频信号每一帧之间能量的变化特征矩阵ΔFeatr,其中1≤r≤m-1;
S11、将二维数组Feat的第c+1列数值减去第c列数值,得到每一个音频信号帧不同频率信号之间能量的变化特征矩阵ΔFeatc,其中1≤c≤j-1。
2.根据权利要求1所述的多类型音频信号能量特征提取方法,其特征在于:所述的S2具体为:采用如下公式进行平滑滤波:s′i=si-α×si-1,其中α为平滑系数,0.95≤α≤0.97。
3.根据权利要求1所述的多类型音频信号能量特征提取方法,其特征在于:所述的j取12。
4.根据权利要求1所述的多类型音频信号能量特征提取方法,其特征在于:所述的l1=1102,l2=441。
CN201910351459.9A 2019-04-28 2019-04-28 一种多类型音频信号能量特征提取方法 Active CN110322887B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910351459.9A CN110322887B (zh) 2019-04-28 2019-04-28 一种多类型音频信号能量特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910351459.9A CN110322887B (zh) 2019-04-28 2019-04-28 一种多类型音频信号能量特征提取方法

Publications (2)

Publication Number Publication Date
CN110322887A CN110322887A (zh) 2019-10-11
CN110322887B true CN110322887B (zh) 2021-10-15

Family

ID=68113037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910351459.9A Active CN110322887B (zh) 2019-04-28 2019-04-28 一种多类型音频信号能量特征提取方法

Country Status (1)

Country Link
CN (1) CN110322887B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667828B (zh) * 2020-12-31 2022-07-05 福建星网视易信息系统有限公司 一种音频可视化方法及终端

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7676372B1 (en) * 1999-02-16 2010-03-09 Yugen Kaisha Gm&M Prosthetic hearing device that transforms a detected speech into a speech of a speech form assistive in understanding the semantic meaning in the detected speech
US8731936B2 (en) * 2011-05-26 2014-05-20 Microsoft Corporation Energy-efficient unobtrusive identification of a speaker
CN104157290A (zh) * 2014-08-19 2014-11-19 大连理工大学 一种基于深度学习的说话人识别方法
US20150127343A1 (en) * 2013-11-04 2015-05-07 Jobaline, Inc. Matching and lead prequalification based on voice analysis
US10095850B2 (en) * 2014-05-19 2018-10-09 Kadenze, Inc. User identity authentication techniques for on-line content or access
CN108766419A (zh) * 2018-05-04 2018-11-06 华南理工大学 一种基于深度学习的非常态语音区别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101051464A (zh) * 2006-04-06 2007-10-10 株式会社东芝 说话人认证的注册和验证方法及装置
CN101221762A (zh) * 2007-12-06 2008-07-16 上海大学 一种mp3压缩域音频分割方法
EP2766901B1 (en) * 2011-10-17 2016-09-21 Nuance Communications, Inc. Speech signal enhancement using visual information
US10497354B2 (en) * 2016-06-07 2019-12-03 Bose Corporation Spectral optimization of audio masking waveforms
CN109326294B (zh) * 2018-09-28 2022-09-20 杭州电子科技大学 一种文本相关的声纹密钥生成方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7676372B1 (en) * 1999-02-16 2010-03-09 Yugen Kaisha Gm&M Prosthetic hearing device that transforms a detected speech into a speech of a speech form assistive in understanding the semantic meaning in the detected speech
US8731936B2 (en) * 2011-05-26 2014-05-20 Microsoft Corporation Energy-efficient unobtrusive identification of a speaker
US20150127343A1 (en) * 2013-11-04 2015-05-07 Jobaline, Inc. Matching and lead prequalification based on voice analysis
US10095850B2 (en) * 2014-05-19 2018-10-09 Kadenze, Inc. User identity authentication techniques for on-line content or access
CN104157290A (zh) * 2014-08-19 2014-11-19 大连理工大学 一种基于深度学习的说话人识别方法
CN108766419A (zh) * 2018-05-04 2018-11-06 华南理工大学 一种基于深度学习的非常态语音区别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《Robust Feature Extraction Using Modulation Filtering of Autoregressive Models》;Sriram Ganapathy et al.;《IEEE/ACM Transactions on Audio, Speech, and Language Processing ( Volume: 22,Issue: 8, Aug. 2014)》;20141231;全文 *
《一种考虑类别信息的音频特征提取方法》;陈刚等;《计算机研究与发展》;20061231;全文 *
《基于 Gammachirp 耳蜗能量谱特征提取的音频指纹算法》;孟建华等;《华东理工大学学报(自然科学版)》;20151031;全文 *

Also Published As

Publication number Publication date
CN110322887A (zh) 2019-10-11

Similar Documents

Publication Publication Date Title
Wang et al. TSTNN: Two-stage transformer based neural network for speech enhancement in the time domain
CN110120227B (zh) 一种深度堆叠残差网络的语音分离方法
Shete et al. Zero crossing rate and Energy of the Speech Signal of Devanagari Script
CN109147796B (zh) 语音识别方法、装置、计算机设备及计算机可读存储介质
JP3654831B2 (ja) 自動音声認識のための特徴量抽出方法
CN103137137B (zh) 一种会议音频中的精彩说话人发现方法
CN109378013B (zh) 一种语音降噪方法
CN104200804A (zh) 一种面向人机交互的多类信息耦合的情感识别方法
CN108198545B (zh) 一种基于小波变换的语音识别方法
JPH036517B2 (zh)
Dua et al. Performance evaluation of Hindi speech recognition system using optimized filterbanks
Ranjard et al. Unsupervised bird song syllable classification using evolving neural networks
CN102646415B (zh) 一种语音识别中的特征参数提取方法
Linh et al. MFCC-DTW algorithm for speech recognition in an intelligent wheelchair
Ghitza Robustness against noise: The role of timing-synchrony measurement
CN110322887B (zh) 一种多类型音频信号能量特征提取方法
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
CN114283829B (zh) 一种基于动态门控卷积循环网络的语音增强方法
Naderi et al. Multiresolution convolutional neural network for robust speech recognition
CN100358007C (zh) 一种利用改进的谱相减法提高语音识别精度的方法
Grais et al. Multi-band multi-resolution fully convolutional neural networks for singing voice separation
Naing et al. Psychoacoustical masking effect-based feature extraction for robust speech recognition
CN111341327A (zh) 一种基于粒子群算法的说话人语音识别方法、装置和设备
El-Henawy et al. Recognition of phonetic Arabic figures via wavelet based Mel Frequency Cepstrum using HMMs
EP1612773A3 (en) Sound signal processing apparatus and degree of speech computation method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A method for extracting energy features of multi type audio signals

Granted publication date: 20211015

Pledgee: Bank of Communications Ltd. Wuhan East Lake New Technology Development Zone sub branch

Pledgor: WUHAN DASHENGJI TECHNOLOGY Co.,Ltd.

Registration number: Y2024980020228

PE01 Entry into force of the registration of the contract for pledge of patent right