CN110322887B - 一种多类型音频信号能量特征提取方法 - Google Patents
一种多类型音频信号能量特征提取方法 Download PDFInfo
- Publication number
- CN110322887B CN110322887B CN201910351459.9A CN201910351459A CN110322887B CN 110322887 B CN110322887 B CN 110322887B CN 201910351459 A CN201910351459 A CN 201910351459A CN 110322887 B CN110322887 B CN 110322887B
- Authority
- CN
- China
- Prior art keywords
- audio signal
- array
- equal
- energy
- feat
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 73
- 238000000605 extraction Methods 0.000 title claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims abstract description 21
- 238000005070 sampling Methods 0.000 claims abstract description 14
- 238000001914 filtration Methods 0.000 claims abstract description 10
- 238000004458 analytical method Methods 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000003491 array Methods 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 5
- 230000003321 amplification Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
- Complex Calculations (AREA)
Abstract
本发明提供一种多类型音频信号能量特征提取方法,选取采样频率,采集说话人的音频信号值;对采集的说话人的音频信号值进行滤波和切片处理,得到若干个一定长度的音频信号帧;建立数组;将每一组音频信号帧与数组相乘,得到局部被放大或者缩小的音频信号切片;对音频信号切片进行幅频分析,计算每一种频率信号的能量;生成一维数组;将所有的音频信号帧的特征形成一个二维数组,作为采集的音频信号的能量特征矩阵;依据该能量特征矩阵得到音频信号每一帧之间能量的变化特征矩阵和不同频率信号之间能量的变化特征矩阵。本发明能获得更加丰富的音频信号能量特征。
Description
技术领域
本发明涉及音频信号能量提取技术领域,具体涉及一种多类型音频信号能量特征提取方法。
背景技术
在对语言信号进行说话人身份识别的应用过程中,往往需要提取说话人的语言特征以进行辨认,而表征一个人特点的特征主要包括频谱、倒频谱、共振峰、基音、反射系数、鼻音、沙哑音等人类的声学特征,以及语义、修辞、发音、言语习惯、韵律、节奏、速度、语调、音量等特征。目前大部分说话人识别系统都是采用声学层面的特征,通过采集语音的电信号进行相关的分析,提取典型的特征以供识别算法进行准确识别和分类。
发明内容
本发明要解决的技术问题是:提供一种多类型音频信号能量特征提取方法,从而获得更加丰富的音频信号能量特征。
本发明为解决上述技术问题所采取的技术方案为:一种多类型音频信号能量特征提取方法,其特征在于:本方法包括以下步骤:
S1、数据采集:
令采样频率为f,采集说话人的音频信号值为s1、s2、s3、……、sn,其中n为采集的音频信号的采样数量;
S2、滤波:
对采集的说话人的音频信号值进行滤波处理,得到s′1、s′2、s′3、……、s′n;
S3、切片:
对s′1、s′2、s′3、……、s′n进行切片处理,按照每个切片包含l1个采样点,每两个切片之间有l2个采样点重复的原则进行切割,得到的切片个数为m=floor((n-l1)÷(l1-l2))+1,其中运算符号floor()表示对括号里面的数进行向下取整运算;进行切片处理后,得到m个长度为l1个采样点的音频信号帧其中1≤i≤n-l1+1,i为音频信号帧中每一个元素的序号,s′i至为第i组音频信号帧中的第1至第l1个元素;
S4、建立数组H,其中数组H的每一个元素H(i)的表达式计算方法为H(i)=0.54-0.46×cos(2πi/(l1-1)),其中0≤i≤l1-1;
S7、生成j个一维数组,每一个数组包含l1个元素,其中每一个数组包含三个位置特征fpl、fpc、fpr,第t个数组中每一个元素值大小满足关系式:
公式(1)中t表示数组的序号,1≤t≤12,k表示数组中元素的序号,其中三个位置特征fplt、fpct、fprt分别为第t个数组的位置特征fpl、fpc、fpr,且均为预设值;
S8、将Pk分别与S7中的数组FAt(k)相乘得到结果PFAt(k),将第t个数组PFAt(k)中的l1个元素相加,得到整个音频信号的第t个特征Ft,因此一个音频信号帧获得j个特征;
S9、将所有的m个音频信号帧的特征形成一个m行、j列的二维数组Feat,作为采集的音频信号的能量特征矩阵;Feat的第r行的j个元素为第r帧信号的j个特征值;
S10、将二维数组Feat的第r+1行数值减去第r行数值,得到音频信号每一帧之间能量的变化特征矩阵ΔFeatr,其中1≤r≤m-1;
S11、将二维数组Feat的第c+1列数值减去第c列数值,得到每一个音频信号帧不同频率信号之间能量的变化特征矩阵ΔFeatc,其中1≤c≤j-1。
按上述方法,所述的S2具体为:采用如下公式进行平滑滤波:si′=si-α×si-1,其中α为平滑系数,0.95≤α≤0.97。
按上述方法,所述的j取12。
按上述方法,所述的l1=1102,l2=441。
本发明的有益效果为:通过对采集的音频信号切片和局部放大或缩小处理,然后构件二维数组,从而获得音频信号的能量矩阵及其变化特征矩阵,从而获得更加丰富的音频信号能量特征,非常适合进行各种音频信号的身份特征提取,为获得更加准确的语音身份辨识提供了基础。
附图说明
图1为本发明一实施例的方法原理图。
图2为音频信号切片形成音频信号帧的原理图。
图3为本发明一实施例采集的音频信号曲线图。
图4为本发明一实施例单帧信号滤波前后的对比曲线图。
图5为本发明一实施例采集的音频信号的能量特征矩阵图。
图6为本发明一实施例采集的音频信号的每一帧能量变化率矩阵图。
图7为本发明一实施例采集的音频信号的一帧信号内不同频率信号能量变化矩阵图。
具体实施方式
下面结合具体实例和附图对本发明做进一步说明。
本发明提供一种多类型音频信号能量特征提取方法,如图1所示,本方法包括以下步骤:
S1、数据采集:
令采样频率为f,采集说话人的音频信号值为s1、s2、s3、……、sn,其中n为采集的音频信号的采样数量。
S2、滤波:
为了消除高频信号的影响和改善信噪比,对采集的语音信号进行滤波处理,其处理方法的计算公式为s′i=si-α×si-1,其中α为平滑系数,0.95≤α≤0.97,采样信号滤波后得到信号s′1、s′2、s′3、……、s′n。
S3、切片:
由于音频信号在不同时间会出现频率和幅值较大的波动,因此对s′1、s′2、s′3、……、s′n进行切片处理,按照每个切片包含l1个采样点,每两个切片之间有l2个采样点重复的原则进行切割,如图2所示,得到的切片个数为m=floor((n-l1)÷(l1-l2))+1,其中运算符号floor()表示对括号里面的数进行向下取整运算;进行切片处理后,得到m个长度为l1个采样点的音频信号帧其中1≤i≤n-l1+1,i为音频信号帧中每一个元素的序号,s′i至为第i组音频信号帧中的第1至第l1个元素;
S4、建立数组H,其中数组H的每一个元素H(i)的表达式计算方法为H(i)=0.54-0.46×cos(2πi/(l1-1)),其中0≤i≤l1-1;
S7、生成j个一维数组,每一个数组包含l1个元素,其中每一个数组包含三个位置特征fpl、fpc、fpr,第t个数组中每一个元素值大小满足关系式:
公式(1)中t表示数组的序号,1≤t≤12,k表示数组中元素的序号,其中三个位置特征fplt、fpct、fprt分别为第t个数组的位置特征fpl、fpc、fpr,且均为预设值。
本实施例中,取j为12,三个位置特征的值如下表所示:
表1
系数 | t=1 | t=2 | t=3 | t=4 | t=5 | t=6 | t=7 | t=8 | t=9 | t=10 | t=11 | t=12 |
f<sub>plt</sub> | 4 | 7 | 10 | 14 | 17 | 22 | 27 | 32 | 38 | 45 | 53 | 62 |
f<sub>pct</sub> | 7 | 10 | 14 | 17 | 22 | 27 | 32 | 38 | 45 | 53 | 62 | 72 |
f<sub>prt</sub> | 10 | 14 | 17 | 22 | 27 | 32 | 38 | 45 | 53 | 62 | 72 | 83 |
S8、将Pk分别与S7中的数组FAt(k)相乘得到结果PFAt(k),将第t个数组PFAt(k)中的l1个元素相加,得到整个音频信号的第t个特征Ft,因此一个音频信号帧获得j个特征。
S9、将所有的m个音频信号帧的特征形成一个m行、j列的二维数组Feat,作为采集的音频信号的能量特征矩阵;Feat的第r行的j个元素为第r帧信号的j个特征值。
S10、将二维数组Feat的第r+1行数值减去第r行数值,得到音频信号每一帧之间能量的变化特征矩阵ΔFeatr,其中1≤r≤m-1。
S11、将二维数组Feat的第c+1列数值减去第c列数值,得到每一个音频信号帧不同频率信号之间能量的变化特征矩阵ΔFeatc,其中1≤c≤j-1。
以采样频率f=44100Hz采集一段音频信号,采样点数量n=154350,其信号如附图3所示。令每一个切片的长度l1=1102,切片之间重叠长度l2=441,则采集到的信号可以切分为698帧长度为1102点的数据集合。每一帧采样信号经过S4和S5后得到了如附图4所示的曲线,从附图4可知每一帧音频信号在中间部分进行放大,两端逐渐衰减。经过S6-S9处理后,得到采样音频数据的特征矩阵如附图5所示,其中S7中的数组系数如表1所示。附图5中用颜色深浅表示每一帧信号特征的数值大小,从图中可以发现每一帧信号的特征差异非常清晰。按照S10计算得到音频信号每一帧之间特征的变化率矩阵,其如附图6所示,从附图6可知每一帧信号之间的能量变化比较平缓。按照S11计算得到音频信号同一帧内不同频率信号的能量变化矩阵,其如附图7所示,从附图7可知短时间内不同频率的信号能量差距非常大,可以用来清晰描述声音信号的差异。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。
Claims (4)
1.一种多类型音频信号能量特征提取方法,其特征在于:本方法包括以下步骤:
S1、数据采集:
令采样频率为f,采集说话人的音频信号值为s1、s2、s3、……、sn,其中n为采集的音频信号的采样数量;
S2、滤波:
对采集的说话人的音频信号值进行滤波处理,得到s′1、s′2、s′3、……、s′n;
S3、切片:
对s′1、s′2、s′3、……、s′n进行切片处理,按照每个切片包含l1个采样点,每两个切片之间有l2个采样点重复的原则进行切割,得到的切片个数为m=floor((n-l1)÷(l1-l2))+1,其中运算符号floor()表示对括号里面的数进行向下取整运算;进行切片处理后,得到m个长度为l1个采样点的音频信号帧其中1≤i≤n-l1+1,i为音频信号帧中每一个元素的序号,s′i至为第i组音频信号帧中的第1至第l1个元素;
S4、建立数组H,其中数组H的每一个元素H(i)的表达式计算方法为H(i)=0.54-0.46×cos(2πi/(l1-1)),其中0≤i≤l1-1;
S7、生成j个一维数组,每一个数组包含l1个元素,其中每一个数组包含三个位置特征fpl、fpc、fpr,第t个数组中每一个元素值大小满足关系式:
公式(1)中t表示数组的序号,1≤t≤12,k表示数组中元素的序号,其中三个位置特征fplt、fpct、fprt分别为第t个数组的位置特征fpl、fpc、fpr,且均为预设值;
S8、将Pk分别与S7中的数组FAt(k)相乘得到结果PFAt(k),将第t个数组PFAt(k)中的l1个元素相加,得到整个音频信号的第t个特征Ft,因此一个音频信号帧获得j个特征;
S9、将所有的m个音频信号帧的特征形成一个m行、j列的二维数组Feat,作为采集的音频信号的能量特征矩阵;Feat的第r行的j个元素为第r帧信号的j个特征值;
S10、将二维数组Feat的第r+1行数值减去第r行数值,得到音频信号每一帧之间能量的变化特征矩阵ΔFeatr,其中1≤r≤m-1;
S11、将二维数组Feat的第c+1列数值减去第c列数值,得到每一个音频信号帧不同频率信号之间能量的变化特征矩阵ΔFeatc,其中1≤c≤j-1。
2.根据权利要求1所述的多类型音频信号能量特征提取方法,其特征在于:所述的S2具体为:采用如下公式进行平滑滤波:s′i=si-α×si-1,其中α为平滑系数,0.95≤α≤0.97。
3.根据权利要求1所述的多类型音频信号能量特征提取方法,其特征在于:所述的j取12。
4.根据权利要求1所述的多类型音频信号能量特征提取方法,其特征在于:所述的l1=1102,l2=441。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910351459.9A CN110322887B (zh) | 2019-04-28 | 2019-04-28 | 一种多类型音频信号能量特征提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910351459.9A CN110322887B (zh) | 2019-04-28 | 2019-04-28 | 一种多类型音频信号能量特征提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110322887A CN110322887A (zh) | 2019-10-11 |
CN110322887B true CN110322887B (zh) | 2021-10-15 |
Family
ID=68113037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910351459.9A Active CN110322887B (zh) | 2019-04-28 | 2019-04-28 | 一种多类型音频信号能量特征提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110322887B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112667828B (zh) * | 2020-12-31 | 2022-07-05 | 福建星网视易信息系统有限公司 | 一种音频可视化方法及终端 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7676372B1 (en) * | 1999-02-16 | 2010-03-09 | Yugen Kaisha Gm&M | Prosthetic hearing device that transforms a detected speech into a speech of a speech form assistive in understanding the semantic meaning in the detected speech |
US8731936B2 (en) * | 2011-05-26 | 2014-05-20 | Microsoft Corporation | Energy-efficient unobtrusive identification of a speaker |
CN104157290A (zh) * | 2014-08-19 | 2014-11-19 | 大连理工大学 | 一种基于深度学习的说话人识别方法 |
US20150127343A1 (en) * | 2013-11-04 | 2015-05-07 | Jobaline, Inc. | Matching and lead prequalification based on voice analysis |
US10095850B2 (en) * | 2014-05-19 | 2018-10-09 | Kadenze, Inc. | User identity authentication techniques for on-line content or access |
CN108766419A (zh) * | 2018-05-04 | 2018-11-06 | 华南理工大学 | 一种基于深度学习的非常态语音区别方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101051464A (zh) * | 2006-04-06 | 2007-10-10 | 株式会社东芝 | 说话人认证的注册和验证方法及装置 |
CN101221762A (zh) * | 2007-12-06 | 2008-07-16 | 上海大学 | 一种mp3压缩域音频分割方法 |
EP2766901B1 (en) * | 2011-10-17 | 2016-09-21 | Nuance Communications, Inc. | Speech signal enhancement using visual information |
US10497354B2 (en) * | 2016-06-07 | 2019-12-03 | Bose Corporation | Spectral optimization of audio masking waveforms |
CN109326294B (zh) * | 2018-09-28 | 2022-09-20 | 杭州电子科技大学 | 一种文本相关的声纹密钥生成方法 |
-
2019
- 2019-04-28 CN CN201910351459.9A patent/CN110322887B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7676372B1 (en) * | 1999-02-16 | 2010-03-09 | Yugen Kaisha Gm&M | Prosthetic hearing device that transforms a detected speech into a speech of a speech form assistive in understanding the semantic meaning in the detected speech |
US8731936B2 (en) * | 2011-05-26 | 2014-05-20 | Microsoft Corporation | Energy-efficient unobtrusive identification of a speaker |
US20150127343A1 (en) * | 2013-11-04 | 2015-05-07 | Jobaline, Inc. | Matching and lead prequalification based on voice analysis |
US10095850B2 (en) * | 2014-05-19 | 2018-10-09 | Kadenze, Inc. | User identity authentication techniques for on-line content or access |
CN104157290A (zh) * | 2014-08-19 | 2014-11-19 | 大连理工大学 | 一种基于深度学习的说话人识别方法 |
CN108766419A (zh) * | 2018-05-04 | 2018-11-06 | 华南理工大学 | 一种基于深度学习的非常态语音区别方法 |
Non-Patent Citations (3)
Title |
---|
《Robust Feature Extraction Using Modulation Filtering of Autoregressive Models》;Sriram Ganapathy et al.;《IEEE/ACM Transactions on Audio, Speech, and Language Processing ( Volume: 22,Issue: 8, Aug. 2014)》;20141231;全文 * |
《一种考虑类别信息的音频特征提取方法》;陈刚等;《计算机研究与发展》;20061231;全文 * |
《基于 Gammachirp 耳蜗能量谱特征提取的音频指纹算法》;孟建华等;《华东理工大学学报(自然科学版)》;20151031;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110322887A (zh) | 2019-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | TSTNN: Two-stage transformer based neural network for speech enhancement in the time domain | |
CN110120227B (zh) | 一种深度堆叠残差网络的语音分离方法 | |
Shete et al. | Zero crossing rate and Energy of the Speech Signal of Devanagari Script | |
CN109147796B (zh) | 语音识别方法、装置、计算机设备及计算机可读存储介质 | |
JP3654831B2 (ja) | 自動音声認識のための特徴量抽出方法 | |
CN103137137B (zh) | 一种会议音频中的精彩说话人发现方法 | |
CN109378013B (zh) | 一种语音降噪方法 | |
CN104200804A (zh) | 一种面向人机交互的多类信息耦合的情感识别方法 | |
CN108198545B (zh) | 一种基于小波变换的语音识别方法 | |
JPH036517B2 (zh) | ||
Dua et al. | Performance evaluation of Hindi speech recognition system using optimized filterbanks | |
Ranjard et al. | Unsupervised bird song syllable classification using evolving neural networks | |
CN102646415B (zh) | 一种语音识别中的特征参数提取方法 | |
Linh et al. | MFCC-DTW algorithm for speech recognition in an intelligent wheelchair | |
Ghitza | Robustness against noise: The role of timing-synchrony measurement | |
CN110322887B (zh) | 一种多类型音频信号能量特征提取方法 | |
CN106297769B (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
CN114283829B (zh) | 一种基于动态门控卷积循环网络的语音增强方法 | |
Naderi et al. | Multiresolution convolutional neural network for robust speech recognition | |
CN100358007C (zh) | 一种利用改进的谱相减法提高语音识别精度的方法 | |
Grais et al. | Multi-band multi-resolution fully convolutional neural networks for singing voice separation | |
Naing et al. | Psychoacoustical masking effect-based feature extraction for robust speech recognition | |
CN111341327A (zh) | 一种基于粒子群算法的说话人语音识别方法、装置和设备 | |
El-Henawy et al. | Recognition of phonetic Arabic figures via wavelet based Mel Frequency Cepstrum using HMMs | |
EP1612773A3 (en) | Sound signal processing apparatus and degree of speech computation method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A method for extracting energy features of multi type audio signals Granted publication date: 20211015 Pledgee: Bank of Communications Ltd. Wuhan East Lake New Technology Development Zone sub branch Pledgor: WUHAN DASHENGJI TECHNOLOGY Co.,Ltd. Registration number: Y2024980020228 |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right |