CN111370023A - 一种基于gru的乐器识别方法及系统 - Google Patents
一种基于gru的乐器识别方法及系统 Download PDFInfo
- Publication number
- CN111370023A CN111370023A CN202010097479.0A CN202010097479A CN111370023A CN 111370023 A CN111370023 A CN 111370023A CN 202010097479 A CN202010097479 A CN 202010097479A CN 111370023 A CN111370023 A CN 111370023A
- Authority
- CN
- China
- Prior art keywords
- audio
- gru
- neural network
- musical instrument
- recognition model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 238000013528 artificial neural network Methods 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 34
- 238000010276 construction Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 240000005373 Panax quinquefolius Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明公开了一种基于GRU的乐器识别方法,包括以下步骤:S11.将待识别音频的音频数据进行vad处理,切除静音段,得vad处理音频;S12.提取vad处理音频的声学特征,得待识别声学特征;S13.将待识别声学特征输入GRU神经网络识别模型的输入层进行识别,GRU神经网络识别模型的输出层输出预测结果,根据预测结果判定待识别音频的演奏乐器。本发明还公开了一种采用上述方法的基于GRU的乐器识别系统。本发明可以识别出一段音频中包含的演奏乐器种类。
Description
技术领域
本发明涉及音频识别技术领域,特别是一种基于GRU的乐器识别方法及系统。
背景技术
人们听到一首好听的乐曲时,不仅会反复品鉴,很多时候也想知道他是由哪些乐器弹奏出的。但是对于大多不熟悉乐器的人,单凭人耳很难能够识别得出。
发明内容
本发明为解决上述问题,提供了一种基于GRU的乐器识别方法及系统,可以识别出一段音频中包含的演奏乐器种类。
为实现上述目的,本发明采用的技术方案为:
一种基于GRU的乐器识别方法,包括以下步骤:
S11.将待识别音频的音频数据进行vad处理,切除静音段,得vad处理音频;
S12.提取所述vad处理音频的声学特征,得待识别声学特征;
S13.将所述待识别声学特征输入GRU神经网络识别模型的输入层进行识别,所述GRU神经网络识别模型的输出层输出预测结果,根据所述预测结果判定所述待识别音频的演奏乐器。
优选的,所述预测结果为独热码,用于表示演奏乐器的种类。
优选的,所述声学特征包括13维的MFCC特征、13维的MFCC特征一阶导数和13维的MFCC特征二阶导数,共计39维特征。
进一步优选的,所述GRU神经网络识别模型的网络结构包括3个GRU层、1个全连接层和一个输出层,其中所述GRU层的输入尺寸为N*(500*39),所述输出层为N个节点的softmax层,其中N为所述GRU神经网络识别模型能够识别的演奏乐器的种类数。
优选的,所述GRU神经网络识别模型的构建方法,包括以下步骤:
S21.采集不同乐器的演奏音频,根据演奏乐器的种类进行分类,得训练集音频;
S22.将所述训练集音频的音频数据进行vad处理,切除静音段,得训练集vad处理音频;
S23.将所述训练集vad处理音频进行截取,得训练集截取音频;
S24.提取所述训练集截取音频的声学特征,得训练集声学特征;
S25.将所述训练集声纹特征数据输入到所述GRU神经网络识别模型中,所述GRU神经网络识别模型输出所述预测结果;
S26.使用交叉熵损失作为损失函数,通过Adam算法优化所述GRU神经网络识别模型至趋于稳定后完成训练。
进一步优选的,训练时,所述GRU神经网络识别模型添加dropout参数。
基于同样的发明构思,本发明还提供了一种基于GRU的乐器识别系统,包括:
音频输入终端,用于输入所述待识别音频;
识别模块,用于对所述待识别音频的音频数据进行识别,判定待识别音频的演奏乐器。
本发明的有益效果是:
(1)构建多分类的GRU模型,根据乐器演奏声的声学特征差异进行分类;
(2)使用声音特征的组合作为模型的输入,并训练出分类器;
(3)训练时在模型中加入了dropout操作,防止过拟合。
附图说明
图1为本发明一实施例所提供的一种GRU神经网络识别模型构建的流程图;
图2为本发明一实施例所提供的一种提取声学特征的流程图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合具体实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本实施例提供一种基于GRU的乐器识别系统,该系统可以集成于手机APP中,用于对输入的音频的演奏乐器的种类进行识别。
该系统包括音频输入终端和识别模块。
其中,识别模块中加载有GRU神经网络识别模型。
该模型的构建方法,包括以下步骤:
S1.采集钢琴、笛子、笙箫、吉他、小提琴5种乐器的演奏音频作为训练集音频,并根据演奏乐器的种类分为5个类别。
每个类别80%的训练集音频用于对模型进行训练,20%用于对模型进行测试。
S2.将训练集音频的音频数据进行vad处理,切除静音段,得训练集vad处理音频。
S3.将训练集vad处理音频截取为每段时长为5s的训练集截取音频。
S4.提取训练集截取音频的声学特征,得训练集声学特征。
由于乐器演奏声的声学特征会有所不同,比如在某一个频率段声音的能量,基频等,所以使用不同声学特征的组合作为模型的输入。在该系统中使用的组合为:13维的MFCC特征、13维的MFCC特征一阶导数和13维的MFCC特征二阶导数,共计39维特征。
如图2所示,提取声学特征的流程包括对训练集截取音频的连续语音的预加重、分帧、加窗、傅立叶变换(FFT)、Mel滤波、对数运算和离散余弦变换(DCT)处理。
S5.将训练集声纹特征数据输入到GRU神经网络识别模型中,对分类器进行训练。
该模型的网络结构包括3个GRU层、1个全连接层和一个输出层,其中输入尺寸为5*(500*39),输出层为5个节点的softmax层。
输出层的预测结果使用独热码one-hot表示所属语种(比如方言排列顺序为:钢琴、笛子、笙箫、吉他、小提琴,则钢琴表示为:10000;笛子表示为:01000;吉他表示为:00100;...)。
训练时,添加dropout参数,防止模型过拟合。
S6.使用交叉熵损失作为损失函数,损失值为输入模型的对应独热码和模型输出的独热码的差值,通过Adam算法优化GRU神经网络识别模型至趋于稳定后完成模型的构建。
使用该系统时,通过音频输入终端输入一段包含有乐器演奏声的音频,音频输入终端提取待识别音频的声学特征至识别模块。识别模块基于上述模型进行识别,输出预测结果,并根据其独热码判定对应的演奏乐器种类。
本发明使用端到端的网络结构进行识别,系统直接输出音频中包含的演奏乐器种类,识别速度快,可以满足用户对乐曲全方位鉴赏的需求,有效提高用户的鉴赏水平。
本领域技术人员可以理解,实现上述音频数据检测方法实施例中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在1个存储介质中,包括若干指令用以使得1个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
上述说明示出并描述了本发明的优选实施例,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (7)
1.一种基于GRU的乐器识别方法,其特征在于,包括以下步骤:
S11.将待识别音频的音频数据进行vad处理,切除静音段,得vad处理音频;
S12.提取所述vad处理音频的声学特征,得待识别声学特征;
S13.将所述待识别声学特征输入GRU神经网络识别模型的输入层进行识别,所述GRU神经网络识别模型的输出层输出预测结果,根据所述预测结果判定所述待识别音频的演奏乐器。
2.根据权利要求1所述的一种基于GRU的乐器识别方法,其特征在于,所述预测结果为独热码,用于表示演奏乐器的种类。
3.根据权利要求1所述的一种基于GRU的乐器识别方法,其特征在于,所述声学特征包括13维的MFCC特征、13维的MFCC特征一阶导数和13维的MFCC特征二阶导数,共计39维特征。
4.根据权利要求3所述的一种基于GRU的乐器识别方法,其特征在于,所述GRU神经网络识别模型的网络结构包括3个GRU层、1个全连接层和一个输出层,其中所述GRU层的输入尺寸为N*(500*39),所述输出层为N个节点的softmax层,其中N为所述GRU神经网络识别模型能够识别的演奏乐器的种类数。
5.根据权利要求1所述的一种基于GRU的乐器识别方法,其特征在于,所述GRU神经网络识别模型的构建方法,包括以下步骤:
S21.采集不同乐器的演奏音频,根据演奏乐器的种类进行分类,得训练集音频;
S22.将所述训练集音频的音频数据进行vad处理,切除静音段,得训练集vad处理音频;
S23.将所述训练集vad处理音频进行截取,得训练集截取音频;
S24.提取所述训练集截取音频的声学特征,得训练集声学特征;
S25.将所述训练集声纹特征数据输入到所述GRU神经网络识别模型中,所述GRU神经网络识别模型输出所述预测结果;
S26.使用交叉熵损失作为损失函数,通过Adam算法优化所述GRU神经网络识别模型至趋于稳定后完成训练。
6.根据权利要求5所述的一种基于GRU的乐器识别方法,其特征在于,训练时,所述GRU神经网络识别模型添加dropout参数。
7.一种采用如权利要求1~6任一项所述方法的基于GRU的乐器识别系统,其特征在于,包括:
音频输入终端,用于输入所述待识别音频;
识别模块,用于对所述待识别音频的音频数据进行识别,判定待识别音频的演奏乐器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010097479.0A CN111370023A (zh) | 2020-02-17 | 2020-02-17 | 一种基于gru的乐器识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010097479.0A CN111370023A (zh) | 2020-02-17 | 2020-02-17 | 一种基于gru的乐器识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111370023A true CN111370023A (zh) | 2020-07-03 |
Family
ID=71206192
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010097479.0A Pending CN111370023A (zh) | 2020-02-17 | 2020-02-17 | 一种基于gru的乐器识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111370023A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2625378A1 (en) * | 2005-10-06 | 2007-04-19 | Dts Licensing Limited | Neural network classifier for separating audio sources from a monophonic audio signal |
CN103325382A (zh) * | 2013-06-07 | 2013-09-25 | 大连民族学院 | 一种自动识别中国少数民族传统乐器音频数据的方法 |
CN106372257A (zh) * | 2016-10-09 | 2017-02-01 | 华中师范大学 | 一种乐器检索方法和装置 |
JP2018025613A (ja) * | 2016-08-08 | 2018-02-15 | 株式会社Nttドコモ | 楽器音認識装置 |
CN110310666A (zh) * | 2019-06-27 | 2019-10-08 | 成都嗨翻屋科技有限公司 | 一种基于se卷积网络的乐器识别方法及系统 |
-
2020
- 2020-02-17 CN CN202010097479.0A patent/CN111370023A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2625378A1 (en) * | 2005-10-06 | 2007-04-19 | Dts Licensing Limited | Neural network classifier for separating audio sources from a monophonic audio signal |
CN103325382A (zh) * | 2013-06-07 | 2013-09-25 | 大连民族学院 | 一种自动识别中国少数民族传统乐器音频数据的方法 |
JP2018025613A (ja) * | 2016-08-08 | 2018-02-15 | 株式会社Nttドコモ | 楽器音認識装置 |
CN106372257A (zh) * | 2016-10-09 | 2017-02-01 | 华中师范大学 | 一种乐器检索方法和装置 |
CN110310666A (zh) * | 2019-06-27 | 2019-10-08 | 成都嗨翻屋科技有限公司 | 一种基于se卷积网络的乐器识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
尚荣华 等, pages: 295 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108900725B (zh) | 一种声纹识别方法、装置、终端设备及存储介质 | |
US10373609B2 (en) | Voice recognition method and apparatus | |
US7133826B2 (en) | Method and apparatus using spectral addition for speaker recognition | |
JP5229219B2 (ja) | 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム | |
KR100826875B1 (ko) | 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치 | |
US7684986B2 (en) | Method, medium, and apparatus recognizing speech considering similarity between the lengths of phonemes | |
US20080082323A1 (en) | Intelligent classification system of sound signals and method thereof | |
EP3989217A1 (en) | Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium | |
CN105654955B (zh) | 语音识别方法及装置 | |
CN110663080A (zh) | 通过频谱包络共振峰的频移动态修改语音音色的方法和装置 | |
CN111145763A (zh) | 一种基于gru的音频中的人声识别方法及系统 | |
CN113889090A (zh) | 一种基于多任务学习的多语种识别模型的构建和训练方法 | |
CN112382301A (zh) | 基于轻量级神经网络的含噪语音性别识别方法及系统 | |
CN114360514A (zh) | 语音识别方法、装置、设备、介质及产品 | |
CN111640423A (zh) | 一种词边界估计方法、装置及电子设备 | |
CN115223584B (zh) | 音频数据处理方法、装置、设备及存储介质 | |
Jung et al. | Selecting feature frames for automatic speaker recognition using mutual information | |
CN111370023A (zh) | 一种基于gru的乐器识别方法及系统 | |
Cristea et al. | New cepstrum frequency scale for neural network speaker verification | |
JP3493849B2 (ja) | 音声認識装置 | |
CN111782860A (zh) | 一种音频检测方法及装置、存储介质 | |
Bai et al. | Intelligent preprocessing and classification of audio signals | |
CN112259077A (zh) | 语音识别方法、装置、终端和存储介质 | |
JPWO2020049687A1 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
WO2019073233A1 (en) | ANALYSIS OF VOICE SIGNALS |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200703 |