CN110931045A - 基于卷积神经网络的音频特征生成方法 - Google Patents
基于卷积神经网络的音频特征生成方法 Download PDFInfo
- Publication number
- CN110931045A CN110931045A CN201911322936.5A CN201911322936A CN110931045A CN 110931045 A CN110931045 A CN 110931045A CN 201911322936 A CN201911322936 A CN 201911322936A CN 110931045 A CN110931045 A CN 110931045A
- Authority
- CN
- China
- Prior art keywords
- neural network
- signal
- sound signal
- dimensional
- convolutional neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000005236 sound signal Effects 0.000 claims abstract description 51
- 238000013528 artificial neural network Methods 0.000 claims abstract description 16
- 238000001228 spectrum Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000004364 calculation method Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 abstract description 3
- 230000001133 acceleration Effects 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Complex Calculations (AREA)
Abstract
本发明是一种基于卷积神经网络的音频特征生成方法,首先对声音信号进行预处理和离散傅里叶变换计算声音信号的幅度谱,形成二维谱图信号;然后搭建以上述二维谱图信号为输入的一维卷积神经网络并进行模型训练;最后对待测声音进行预处理和离散傅里叶变换得到二维谱图信号,并将其送入训练好的一维卷积神经网络,通过卷积网络计算,得到输出即为所要生成的音频特征,从而实现声音信号的音频特征生成。本发明相比手工特征提取方法能够减少存储开销,且在有神经网络优化的硬件平台实现最大化加速,为实时系统提供了较好的解决方案。
Description
技术领域
本发明涉及声音信号处理技术,具体涉及音频特征生成方法。
背景技术
近些年来,音频信号处理技术在实用化方面取得了许多实质性的研究进展,如在语音识别领域,常用的语音助手、语音检索和语音输入法等技术等都极大的丰富了我们的日常生活。在音频场景识别领域,智能驾驶通过音频分析周围环境,做出相应辅助决策,降噪耳机通过采集周边声学信息,判断所处场景并产生降噪曲线,从而进行主动降噪。在语音合成领域,有限词汇的语音合成已在自动报时、报警、电话查询服务、发音玩具等方面取得了广泛的应用。上述无论语音识别、语音合成还是音频场景识别都离不开声音信号的特征提取,通过特征提取可以过滤音频信号中无用的冗余信息,可以说音频信号的特征提取技术是音频信号处理的基础。
起初,人们发现利用语音信号的时域特征可以从语音波形中提取出某些反应语音特性的参数,比如短时过零率、短时幅度、短时帧平均能量和短时自相关系数等。随着语音和音频技术的不断发展,时域特征参数的种种不足逐渐暴露出来,如这些特征参数缺乏较好的稳定性且区分能力不足。于是,频域参数开始作为语音信号的特征,如频谱共振峰、梅尔频率倒谱系数等。目前这些频域特征广泛应用在语音识别、语音合成以及音频场景识别等任务中,但是这些手工特征的提取方式有以下缺点:(1)在目前广泛使用的深度学习系统中,首先往往需要提取语音信号特征进行保存,然后使用保存的语音特征进行卷积神经网络的训练,这需要花费大量的存储空间存储语音特征(2)计算特征过程比较耗时,不适合实时性要求较高的系统。
发明内容
为了解决上述问题,本发明从深度学习技术方向出发,提出一种基于卷积神经网络的音频特征生成方法,该方法相比手工特征提取方法能够减少存储开销,且在有神经网络优化的硬件平台实现最大化加速,有较好的实时性。
本发明的技术方案如下:
一种基于卷积神经网络的音频特征生成方法,首先对声音信号进行预处理和离散傅里叶变换计算声音信号的幅度谱,形成二维谱图信号;然后搭建以上述二维谱图信号为输入的一维卷积神经网络并进行模型训练,得到特征生成器模型;最后对待测声音进行预处理和离散傅里叶变换得到二维谱图信号,并将其送入训练好的一维卷积神经网络,通过卷积网络计算,得到输出即为所要生成的音频特征,实现声音信号的音频特征生成。
本发明方案中,二维谱图信号的计算方法为:首先将声音信号进行分帧和加窗的预处理,获得声音信号的若干帧;然后对每帧声音信号进行离散傅里叶变换,并求其模值得到该帧信号的幅度谱向量;最后将声音信号所有帧的幅度谱向量按时间顺序进行堆叠,形成一个描述帧数和幅度谱向量的二维谱图信号。
本发明方案中,一维卷积神经网络的搭建主要为堆叠一维卷积层、池化层、批归一化层和激活层等,生成不同的特征需要使用不同大小的卷积核和池化核。
本发明方案中,一维卷积神经网络的参数确定过程为:使用手工特征提取方式计算声音信号特征,如局部二值模式、梯度直方图、对数梅尔谱图特征等,并将提取的特征作为声音信号标签。将上述二维谱图信号送入搭建的卷积神经网络,经隐藏层逐层传递至输出层,计算输出层的实际输出与标签的误差,经过反复迭代和梯度更新调整各网络层参数。反复上述操作,直到一维卷积神经网络的输出和标签的均方误差最小,其公式如下:
其中x表示神经网络的输出,y表示声音信号标签,N表示标签的元素个数。
本发明方案中,生成声音信号的音频特征的过程为:首先选取待测声音信号并将训练过程中均方误差最小的模型作为特征生成器模型;然后计算待测声音的二维谱图信号;最后将二维谱图信号输入上述特征生成器模型,输出即为待测声音信号的音频特征。
本发明方法的优点在于:
1、使用卷积神经网络进行声音信号的特征提取,在基于深度学习的音频信号处理中,可以使用端到端的学习方式进行音频信号的处理,减少特征的存储开销。
2、随着人工智能行业的大力发展,越来越多的硬件平台支持神经网络的加速优化,这样就缩短了音频信号特征提取时间,为实时系统提供了很好的解决方案。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图做简单的介绍。
图1本发明方案的整体框图;
图2一维卷积神经网络的结构框图;
图3实施例生成的谱图特征。
具体实施方式
下面将结合本实施例和附图,对本发明的技术方案进行清楚、完整的描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。
实施例
本实施例为对声音场景信号进行对数梅尔谱图特征的提取,结合图1,其具体步骤如下:
S1:通过手机或录音设备采集场景声音信号若干,并进行相应的切分。本发明使用的声音信号采样率为16kHz,采样位数为16bit,并切分为每段10s的声音片段。
S2:对切分的每一段声音片段进行分帧和加窗。对第n帧声音片段xn(m)进行离散傅里叶变换,然后求其模值得到该帧信号的幅度谱向量。将声音信号的每一帧幅度谱向量按时间顺序进行堆叠,形成一个描述帧数和幅度谱向量的二维谱图信号。上述过程使用汉明窗,帧长为1024,帧重叠为512,最终每一段10s声音片段划分为312帧。
S3:切分的每段声音信号通过手工特征提取方式提取声音信号的对数梅尔谱图特征,其中梅尔滤波器组的个数为64。统计对数梅尔谱图特征的最大值和最小值向量,对其进行最大值最小值归一化处理,并将其作为声音信号的特征标签。
S4:将采集的声音信号及其对数梅尔谱图特征配对,形成训练数据集,用于一维卷积神经网络的训练。
S5:搭建卷积神经网络,如图2所示,第一层包括一个卷积核大小为3,通道数为126,步长为1的一维深度可分离卷积层、批归一化层和Relu激活层。第二层包括一个卷积核大小为3,通道数为64,步长为1的一维深度可分离卷积层、批归一化层和Tanh激活层。
S6:一维卷积神经网络的参数更新过程使用Adam优化器和均方差损失函数,初始学习率为0.001,迭代100回合,每隔20回合,学习率变为原来的0.1倍。需要注意,一维卷积网络训练过程中预处理和傅里叶变换的参数保持不变。绘制损失函数值随训练次数变化的曲线,训练完毕后寻找损失最小的模型作为特征生成器模型,从而得到一维卷积神经网络的模型参数。
S7:输入待生成特征的声音片段,首先对该声音片段进行预处理和离散傅里叶变换,得到该声音片段的二维谱图信号;然后将该二维谱图信号送入S6中的特征生成器模型,经过神经网络的推理计算,输出即为所求的音频特征。
我们使用三段时长为10s的声音片段进行测试,如图3所示,(a1)、(a2)、(a3)分别为上述三段声音信号使用手工特征提取方式提取的对数梅尔谱图特征;(b1)、(b2)、(b3)分别为上述三段声音信号使用卷积神经网络提取的谱图特征。从图中可以看出,使用卷积神经网络提取的对数梅尔谱特征和手工方式提取的谱图特征几乎没有差别,因此可以使用卷积神经网络提取的谱图特征代替手工特征进行基于深度学习的声音信号处理研究。
本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,也可根据说明书所述方法,通过修改声音信号的特征标签提取局部二值模式、梯度直方图等音频特征。
Claims (6)
1.一种基于卷积神经网络的音频特征生成方法,其特征在于:首先对声音信号进行预处理和离散傅里叶变换,计算声音信号的幅度谱,形成二维谱图信号;然后搭建以所述二维谱图信号为输入的一维卷积神经网络并进行模型训练,得到特征生成器模型;最后对待测声音信号进行预处理和离散傅里叶变换得到二维谱图信号,并将其送入训练好的一维卷积神经网络即特征生成器模型,通过卷积网络计算,得到输出即为所要生成的音频特征,实现声音信号的音频特征生成。
2.如权利要求1所述基于卷积神经网络的音频特征生成方法,其特征在于,所述二维谱图信号的计算方法为:首先将声音信号进行分帧和加窗的预处理,获得声音信号的若干帧;然后对每帧声音信号进行离散傅里叶变换,并求其模值得到该帧信号的幅度谱向量;最后将声音信号所有帧的幅度谱向量按时间顺序进行堆叠,形成一个描述帧数和幅度谱向量的二维谱图信号。
3.如权利要求1或2所述基于卷积神经网络的音频特征生成方法,其特征在于,所述一维卷积神经网络包括一维卷积层、池化层、批归一化层和激活层。
5.如权利要求1或2所述基于卷积神经网络的音频特征生成方法,其特征在于,所述生成特征的过程为:首先选取待测声音信号并将训练过程中均方误差最小的模型作为特征生成器模型;然后计算待测声音的二维谱图信号;最后将二维谱图信号输入上述特征生成器模型,输出即为所需声音信号的音频特征。
6.如权利要求5所述基于卷积神经网络的音频特征生成方法,其特征在于,所述声音信号的音频特征包括但不限于对数梅尔谱图、局部二值模式、梯度直方图等特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911322936.5A CN110931045A (zh) | 2019-12-20 | 2019-12-20 | 基于卷积神经网络的音频特征生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911322936.5A CN110931045A (zh) | 2019-12-20 | 2019-12-20 | 基于卷积神经网络的音频特征生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110931045A true CN110931045A (zh) | 2020-03-27 |
Family
ID=69863418
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911322936.5A Pending CN110931045A (zh) | 2019-12-20 | 2019-12-20 | 基于卷积神经网络的音频特征生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110931045A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111627419A (zh) * | 2020-05-09 | 2020-09-04 | 哈尔滨工程大学 | 一种基于水下目标及环境信息特征的声音生成方法 |
CN112733927A (zh) * | 2021-01-05 | 2021-04-30 | 福州数据技术研究院有限公司 | 一种基于一维卷积神经网络的风叶声音边界定位方法和存储设备 |
CN112801294A (zh) * | 2021-04-02 | 2021-05-14 | 福州大学 | 基于图信号处理的用于加速神经网络推理的方法 |
CN113672423A (zh) * | 2021-08-18 | 2021-11-19 | 青岛海信移动通信技术股份有限公司 | 一种专辑文件的解析文件的修复方法和终端设备 |
CN113719863A (zh) * | 2020-09-22 | 2021-11-30 | 青岛海尔智慧厨房电器有限公司 | 一种灶具防干烧控制方法、控制系统、灶具及存储介质 |
CN114265373A (zh) * | 2021-11-22 | 2022-04-01 | 煤炭科学研究总院 | 综采面一体式操控台控制系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107437412A (zh) * | 2016-05-25 | 2017-12-05 | 北京搜狗科技发展有限公司 | 一种声学模型处理方法、语音合成方法、装置及相关设备 |
CN108122562A (zh) * | 2018-01-16 | 2018-06-05 | 四川大学 | 一种基于卷积神经网络和随机森林的音频分类方法 |
CN108766461A (zh) * | 2018-07-17 | 2018-11-06 | 厦门美图之家科技有限公司 | 音频特征提取方法及装置 |
CN109065030A (zh) * | 2018-08-01 | 2018-12-21 | 上海大学 | 基于卷积神经网络的环境声音识别方法及系统 |
CN109767785A (zh) * | 2019-03-06 | 2019-05-17 | 河北工业大学 | 基于卷积神经网络的环境噪声识别分类方法 |
CN110261749A (zh) * | 2019-07-24 | 2019-09-20 | 广东电网有限责任公司 | 一种gis局部放电故障识别模型构建方法、装置及故障识别方法 |
-
2019
- 2019-12-20 CN CN201911322936.5A patent/CN110931045A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107437412A (zh) * | 2016-05-25 | 2017-12-05 | 北京搜狗科技发展有限公司 | 一种声学模型处理方法、语音合成方法、装置及相关设备 |
CN108122562A (zh) * | 2018-01-16 | 2018-06-05 | 四川大学 | 一种基于卷积神经网络和随机森林的音频分类方法 |
CN108766461A (zh) * | 2018-07-17 | 2018-11-06 | 厦门美图之家科技有限公司 | 音频特征提取方法及装置 |
CN109065030A (zh) * | 2018-08-01 | 2018-12-21 | 上海大学 | 基于卷积神经网络的环境声音识别方法及系统 |
CN109767785A (zh) * | 2019-03-06 | 2019-05-17 | 河北工业大学 | 基于卷积神经网络的环境噪声识别分类方法 |
CN110261749A (zh) * | 2019-07-24 | 2019-09-20 | 广东电网有限责任公司 | 一种gis局部放电故障识别模型构建方法、装置及故障识别方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111627419A (zh) * | 2020-05-09 | 2020-09-04 | 哈尔滨工程大学 | 一种基于水下目标及环境信息特征的声音生成方法 |
CN111627419B (zh) * | 2020-05-09 | 2022-03-22 | 哈尔滨工程大学 | 一种基于水下目标及环境信息特征的声音生成方法 |
CN113719863A (zh) * | 2020-09-22 | 2021-11-30 | 青岛海尔智慧厨房电器有限公司 | 一种灶具防干烧控制方法、控制系统、灶具及存储介质 |
CN112733927A (zh) * | 2021-01-05 | 2021-04-30 | 福州数据技术研究院有限公司 | 一种基于一维卷积神经网络的风叶声音边界定位方法和存储设备 |
CN112801294A (zh) * | 2021-04-02 | 2021-05-14 | 福州大学 | 基于图信号处理的用于加速神经网络推理的方法 |
CN113672423A (zh) * | 2021-08-18 | 2021-11-19 | 青岛海信移动通信技术股份有限公司 | 一种专辑文件的解析文件的修复方法和终端设备 |
CN114265373A (zh) * | 2021-11-22 | 2022-04-01 | 煤炭科学研究总院 | 综采面一体式操控台控制系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110931045A (zh) | 基于卷积神经网络的音频特征生成方法 | |
CN108766419B (zh) | 一种基于深度学习的非常态语音区别方法 | |
CN107731233B (zh) | 一种基于rnn的声纹识别方法 | |
Demircan et al. | Feature extraction from speech data for emotion recognition | |
CN108847244A (zh) | 基于mfcc和改进bp神经网络的声纹识别方法及系统 | |
CN109767756B (zh) | 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法 | |
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN107039036B (zh) | 一种基于自动编码深度置信网络的高质量说话人识别方法 | |
CN104835498A (zh) | 基于多类型组合特征参数的声纹识别方法 | |
CN108172218A (zh) | 一种语音建模方法及装置 | |
CN108922559A (zh) | 基于语音时频变换特征和整数线性规划的录音终端聚类方法 | |
CN110942766A (zh) | 音频事件检测方法、系统、移动终端及存储介质 | |
Imtiaz et al. | Isolated word automatic speech recognition (ASR) system using MFCC, DTW & KNN | |
CN112071308A (zh) | 一种基于语音合成数据增强的唤醒词训练方法 | |
CN111341319A (zh) | 一种基于局部纹理特征的音频场景识别方法及系统 | |
CN111785302B (zh) | 说话人分离方法、装置及电子设备 | |
CN112466276A (zh) | 一种语音合成系统训练方法、装置以及可读存储介质 | |
CN112183582A (zh) | 一种多特征融合的水下目标识别方法 | |
CN113763965A (zh) | 一种多重注意力特征融合的说话人识别方法 | |
CN118248177B (zh) | 基于近似最近邻搜索算法的语音情感识别系统及方法 | |
CN112562725A (zh) | 基于语谱图和胶囊网络的混合语音情感分类方法 | |
CN114283822A (zh) | 一种基于伽马通频率倒谱系数的多对一语音转换方法 | |
CN106297769B (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
CN112908340A (zh) | 一种基于全局-局部加窗的声音特征快速提取方法 | |
Tanweer et al. | Analysis of combined use of nn and mfcc for speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200327 |
|
RJ01 | Rejection of invention patent application after publication |