CN111370023A - 一种基于gru的乐器识别方法及系统 - Google Patents

一种基于gru的乐器识别方法及系统 Download PDF

Info

Publication number
CN111370023A
CN111370023A CN202010097479.0A CN202010097479A CN111370023A CN 111370023 A CN111370023 A CN 111370023A CN 202010097479 A CN202010097479 A CN 202010097479A CN 111370023 A CN111370023 A CN 111370023A
Authority
CN
China
Prior art keywords
audio
gru
neural network
musical instrument
recognition model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010097479.0A
Other languages
English (en)
Inventor
白坤
肖龙源
李稀敏
蔡振华
刘晓葳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Co Ltd
Original Assignee
Xiamen Kuaishangtong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Co Ltd filed Critical Xiamen Kuaishangtong Technology Co Ltd
Priority to CN202010097479.0A priority Critical patent/CN111370023A/zh
Publication of CN111370023A publication Critical patent/CN111370023A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明公开了一种基于GRU的乐器识别方法,包括以下步骤:S11.将待识别音频的音频数据进行vad处理,切除静音段,得vad处理音频;S12.提取vad处理音频的声学特征,得待识别声学特征;S13.将待识别声学特征输入GRU神经网络识别模型的输入层进行识别,GRU神经网络识别模型的输出层输出预测结果,根据预测结果判定待识别音频的演奏乐器。本发明还公开了一种采用上述方法的基于GRU的乐器识别系统。本发明可以识别出一段音频中包含的演奏乐器种类。

Description

一种基于GRU的乐器识别方法及系统
技术领域
本发明涉及音频识别技术领域,特别是一种基于GRU的乐器识别方法及系统。
背景技术
人们听到一首好听的乐曲时,不仅会反复品鉴,很多时候也想知道他是由哪些乐器弹奏出的。但是对于大多不熟悉乐器的人,单凭人耳很难能够识别得出。
发明内容
本发明为解决上述问题,提供了一种基于GRU的乐器识别方法及系统,可以识别出一段音频中包含的演奏乐器种类。
为实现上述目的,本发明采用的技术方案为:
一种基于GRU的乐器识别方法,包括以下步骤:
S11.将待识别音频的音频数据进行vad处理,切除静音段,得vad处理音频;
S12.提取所述vad处理音频的声学特征,得待识别声学特征;
S13.将所述待识别声学特征输入GRU神经网络识别模型的输入层进行识别,所述GRU神经网络识别模型的输出层输出预测结果,根据所述预测结果判定所述待识别音频的演奏乐器。
优选的,所述预测结果为独热码,用于表示演奏乐器的种类。
优选的,所述声学特征包括13维的MFCC特征、13维的MFCC特征一阶导数和13维的MFCC特征二阶导数,共计39维特征。
进一步优选的,所述GRU神经网络识别模型的网络结构包括3个GRU层、1个全连接层和一个输出层,其中所述GRU层的输入尺寸为N*(500*39),所述输出层为N个节点的softmax层,其中N为所述GRU神经网络识别模型能够识别的演奏乐器的种类数。
优选的,所述GRU神经网络识别模型的构建方法,包括以下步骤:
S21.采集不同乐器的演奏音频,根据演奏乐器的种类进行分类,得训练集音频;
S22.将所述训练集音频的音频数据进行vad处理,切除静音段,得训练集vad处理音频;
S23.将所述训练集vad处理音频进行截取,得训练集截取音频;
S24.提取所述训练集截取音频的声学特征,得训练集声学特征;
S25.将所述训练集声纹特征数据输入到所述GRU神经网络识别模型中,所述GRU神经网络识别模型输出所述预测结果;
S26.使用交叉熵损失作为损失函数,通过Adam算法优化所述GRU神经网络识别模型至趋于稳定后完成训练。
进一步优选的,训练时,所述GRU神经网络识别模型添加dropout参数。
基于同样的发明构思,本发明还提供了一种基于GRU的乐器识别系统,包括:
音频输入终端,用于输入所述待识别音频;
识别模块,用于对所述待识别音频的音频数据进行识别,判定待识别音频的演奏乐器。
本发明的有益效果是:
(1)构建多分类的GRU模型,根据乐器演奏声的声学特征差异进行分类;
(2)使用声音特征的组合作为模型的输入,并训练出分类器;
(3)训练时在模型中加入了dropout操作,防止过拟合。
附图说明
图1为本发明一实施例所提供的一种GRU神经网络识别模型构建的流程图;
图2为本发明一实施例所提供的一种提取声学特征的流程图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合具体实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本实施例提供一种基于GRU的乐器识别系统,该系统可以集成于手机APP中,用于对输入的音频的演奏乐器的种类进行识别。
该系统包括音频输入终端和识别模块。
其中,识别模块中加载有GRU神经网络识别模型。
该模型的构建方法,包括以下步骤:
S1.采集钢琴、笛子、笙箫、吉他、小提琴5种乐器的演奏音频作为训练集音频,并根据演奏乐器的种类分为5个类别。
每个类别80%的训练集音频用于对模型进行训练,20%用于对模型进行测试。
S2.将训练集音频的音频数据进行vad处理,切除静音段,得训练集vad处理音频。
S3.将训练集vad处理音频截取为每段时长为5s的训练集截取音频。
S4.提取训练集截取音频的声学特征,得训练集声学特征。
由于乐器演奏声的声学特征会有所不同,比如在某一个频率段声音的能量,基频等,所以使用不同声学特征的组合作为模型的输入。在该系统中使用的组合为:13维的MFCC特征、13维的MFCC特征一阶导数和13维的MFCC特征二阶导数,共计39维特征。
如图2所示,提取声学特征的流程包括对训练集截取音频的连续语音的预加重、分帧、加窗、傅立叶变换(FFT)、Mel滤波、对数运算和离散余弦变换(DCT)处理。
S5.将训练集声纹特征数据输入到GRU神经网络识别模型中,对分类器进行训练。
该模型的网络结构包括3个GRU层、1个全连接层和一个输出层,其中输入尺寸为5*(500*39),输出层为5个节点的softmax层。
输出层的预测结果使用独热码one-hot表示所属语种(比如方言排列顺序为:钢琴、笛子、笙箫、吉他、小提琴,则钢琴表示为:10000;笛子表示为:01000;吉他表示为:00100;...)。
训练时,添加dropout参数,防止模型过拟合。
S6.使用交叉熵损失作为损失函数,损失值为输入模型的对应独热码和模型输出的独热码的差值,通过Adam算法优化GRU神经网络识别模型至趋于稳定后完成模型的构建。
使用该系统时,通过音频输入终端输入一段包含有乐器演奏声的音频,音频输入终端提取待识别音频的声学特征至识别模块。识别模块基于上述模型进行识别,输出预测结果,并根据其独热码判定对应的演奏乐器种类。
本发明使用端到端的网络结构进行识别,系统直接输出音频中包含的演奏乐器种类,识别速度快,可以满足用户对乐曲全方位鉴赏的需求,有效提高用户的鉴赏水平。
本领域技术人员可以理解,实现上述音频数据检测方法实施例中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在1个存储介质中,包括若干指令用以使得1个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
上述说明示出并描述了本发明的优选实施例,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (7)

1.一种基于GRU的乐器识别方法,其特征在于,包括以下步骤:
S11.将待识别音频的音频数据进行vad处理,切除静音段,得vad处理音频;
S12.提取所述vad处理音频的声学特征,得待识别声学特征;
S13.将所述待识别声学特征输入GRU神经网络识别模型的输入层进行识别,所述GRU神经网络识别模型的输出层输出预测结果,根据所述预测结果判定所述待识别音频的演奏乐器。
2.根据权利要求1所述的一种基于GRU的乐器识别方法,其特征在于,所述预测结果为独热码,用于表示演奏乐器的种类。
3.根据权利要求1所述的一种基于GRU的乐器识别方法,其特征在于,所述声学特征包括13维的MFCC特征、13维的MFCC特征一阶导数和13维的MFCC特征二阶导数,共计39维特征。
4.根据权利要求3所述的一种基于GRU的乐器识别方法,其特征在于,所述GRU神经网络识别模型的网络结构包括3个GRU层、1个全连接层和一个输出层,其中所述GRU层的输入尺寸为N*(500*39),所述输出层为N个节点的softmax层,其中N为所述GRU神经网络识别模型能够识别的演奏乐器的种类数。
5.根据权利要求1所述的一种基于GRU的乐器识别方法,其特征在于,所述GRU神经网络识别模型的构建方法,包括以下步骤:
S21.采集不同乐器的演奏音频,根据演奏乐器的种类进行分类,得训练集音频;
S22.将所述训练集音频的音频数据进行vad处理,切除静音段,得训练集vad处理音频;
S23.将所述训练集vad处理音频进行截取,得训练集截取音频;
S24.提取所述训练集截取音频的声学特征,得训练集声学特征;
S25.将所述训练集声纹特征数据输入到所述GRU神经网络识别模型中,所述GRU神经网络识别模型输出所述预测结果;
S26.使用交叉熵损失作为损失函数,通过Adam算法优化所述GRU神经网络识别模型至趋于稳定后完成训练。
6.根据权利要求5所述的一种基于GRU的乐器识别方法,其特征在于,训练时,所述GRU神经网络识别模型添加dropout参数。
7.一种采用如权利要求1~6任一项所述方法的基于GRU的乐器识别系统,其特征在于,包括:
音频输入终端,用于输入所述待识别音频;
识别模块,用于对所述待识别音频的音频数据进行识别,判定待识别音频的演奏乐器。
CN202010097479.0A 2020-02-17 2020-02-17 一种基于gru的乐器识别方法及系统 Pending CN111370023A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010097479.0A CN111370023A (zh) 2020-02-17 2020-02-17 一种基于gru的乐器识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010097479.0A CN111370023A (zh) 2020-02-17 2020-02-17 一种基于gru的乐器识别方法及系统

Publications (1)

Publication Number Publication Date
CN111370023A true CN111370023A (zh) 2020-07-03

Family

ID=71206192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010097479.0A Pending CN111370023A (zh) 2020-02-17 2020-02-17 一种基于gru的乐器识别方法及系统

Country Status (1)

Country Link
CN (1) CN111370023A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2625378A1 (en) * 2005-10-06 2007-04-19 Dts Licensing Limited Neural network classifier for separating audio sources from a monophonic audio signal
CN103325382A (zh) * 2013-06-07 2013-09-25 大连民族学院 一种自动识别中国少数民族传统乐器音频数据的方法
CN106372257A (zh) * 2016-10-09 2017-02-01 华中师范大学 一种乐器检索方法和装置
JP2018025613A (ja) * 2016-08-08 2018-02-15 株式会社Nttドコモ 楽器音認識装置
CN110310666A (zh) * 2019-06-27 2019-10-08 成都嗨翻屋科技有限公司 一种基于se卷积网络的乐器识别方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2625378A1 (en) * 2005-10-06 2007-04-19 Dts Licensing Limited Neural network classifier for separating audio sources from a monophonic audio signal
CN103325382A (zh) * 2013-06-07 2013-09-25 大连民族学院 一种自动识别中国少数民族传统乐器音频数据的方法
JP2018025613A (ja) * 2016-08-08 2018-02-15 株式会社Nttドコモ 楽器音認識装置
CN106372257A (zh) * 2016-10-09 2017-02-01 华中师范大学 一种乐器检索方法和装置
CN110310666A (zh) * 2019-06-27 2019-10-08 成都嗨翻屋科技有限公司 一种基于se卷积网络的乐器识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
尚荣华 等, pages: 295 *

Similar Documents

Publication Publication Date Title
CN108900725B (zh) 一种声纹识别方法、装置、终端设备及存储介质
US10373609B2 (en) Voice recognition method and apparatus
US7133826B2 (en) Method and apparatus using spectral addition for speaker recognition
JP5229219B2 (ja) 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム
KR100826875B1 (ko) 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치
US7684986B2 (en) Method, medium, and apparatus recognizing speech considering similarity between the lengths of phonemes
US20080082323A1 (en) Intelligent classification system of sound signals and method thereof
EP3989217A1 (en) Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
CN105654955B (zh) 语音识别方法及装置
CN110663080A (zh) 通过频谱包络共振峰的频移动态修改语音音色的方法和装置
CN111145763A (zh) 一种基于gru的音频中的人声识别方法及系统
CN113889090A (zh) 一种基于多任务学习的多语种识别模型的构建和训练方法
CN112382301A (zh) 基于轻量级神经网络的含噪语音性别识别方法及系统
CN114360514A (zh) 语音识别方法、装置、设备、介质及产品
CN111640423A (zh) 一种词边界估计方法、装置及电子设备
CN115223584B (zh) 音频数据处理方法、装置、设备及存储介质
Jung et al. Selecting feature frames for automatic speaker recognition using mutual information
CN111370023A (zh) 一种基于gru的乐器识别方法及系统
Cristea et al. New cepstrum frequency scale for neural network speaker verification
JP3493849B2 (ja) 音声認識装置
CN111782860A (zh) 一种音频检测方法及装置、存储介质
Bai et al. Intelligent preprocessing and classification of audio signals
CN112259077A (zh) 语音识别方法、装置、终端和存储介质
JPWO2020049687A1 (ja) 音声処理装置、音声処理方法、およびプログラム
WO2019073233A1 (en) ANALYSIS OF VOICE SIGNALS

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200703