CN112270929B - 一种歌曲识别的方法及装置 - Google Patents
一种歌曲识别的方法及装置 Download PDFInfo
- Publication number
- CN112270929B CN112270929B CN202011291194.7A CN202011291194A CN112270929B CN 112270929 B CN112270929 B CN 112270929B CN 202011291194 A CN202011291194 A CN 202011291194A CN 112270929 B CN112270929 B CN 112270929B
- Authority
- CN
- China
- Prior art keywords
- analysis result
- song
- target
- target weight
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000004458 analytical method Methods 0.000 claims abstract description 313
- 238000001228 spectrum Methods 0.000 claims abstract description 56
- 230000033764 rhythmic process Effects 0.000 claims abstract description 54
- 238000000926 separation method Methods 0.000 claims abstract description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 19
- 230000003595 spectral effect Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 8
- 239000000203 mixture Substances 0.000 claims description 4
- 239000000284 extract Substances 0.000 abstract description 13
- 238000005516 engineering process Methods 0.000 abstract description 8
- 238000012360 testing method Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 238000004088 simulation Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- ANRHNWWPFJCPAZ-UHFFFAOYSA-M thionine Chemical compound [Cl-].C1=CC(N)=CC2=[S+]C3=CC(N)=CC=C3N=C21 ANRHNWWPFJCPAZ-UHFFFAOYSA-M 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009747 swallowing Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本公开涉及计算机技术,特别涉及一种歌曲识别的方法及装置,该方法为:智能设备基于待识别歌曲进行音乐和人声分离,获得相应的乐曲信息和声音信息,再分别提取出相应的频谱特征、语音特征以及节奏特征,并进行特征分析,获得第一分析结果、第二分析结果以及第三分析结果,并结合预设的歌曲样本集合,获得所述待识别歌曲的目标识别结果;这样,就可以基于对每一首歌曲提取出的频谱特征、语音特征和节奏特征,在歌曲样本集合中进行定向识别,从而获得与待识别歌曲的各个特征具有高度相似度的歌曲,提高了识别结果的准确性,同时也避免了相关技术下,逐一匹配操作流程的效率低、误差大的问题。
Description
技术领域
本公开涉及计算机技术,特别涉及一种歌曲识别的方法及装置。
背景技术
随着人们生活水平的提高,人们对精神食粮的需求也随之增加。音乐可以给人带来美的享受,符合自身风格和爱好的音乐不仅可以使身体放轻松,也可以给人莫名的快感。因此,各大音乐应用程序中出现了越来越多的听歌识曲、听歌偏好的小应用,那么,如何基于用户点播的一首或几首歌曲,向用户推送同类型或相关类型的歌曲,是各大音乐应用程序需要解决的技术问题。
相关技术下,听歌识曲、听歌偏好推荐的实现方案大多是基于对歌曲的频谱特征分析实现的。首先将歌曲利用短时傅里叶变换获得对应的频谱图像,再经过相关的算法,提取出歌曲中的特征信息,然后基于上述特征信息,在歌曲库中与每一首歌曲进行特征信息的匹配,从而获得相应的歌曲。
然而,现有的歌曲库中收藏的歌曲数目过大,逐一匹配的操作流程会造成匹配的时间成本过高,匹配效率低下;并且,歌曲库中通常会存在大量的改编歌曲(如,歌词改编、曲调改编等等),改编歌曲的频谱特征通常与原始歌曲的频谱特征存在大量相似特征,会给匹配过程造成严重的误导,从而降低匹配的正确率,无法满足用户的使用需求。
由此可见,需要设计一种新的方法,以克服上述缺陷。
发明内容
本公开实施例提供一种歌曲识别的方法及装置,用以解决相关技术下歌曲识别的准确率低的问题。
本公开实施例提供的具体技术方案如下:
第一方面,一种歌曲识别的方法,包括:
对待识别歌曲进行音乐和人声分离,获得相应的乐曲信息和声音信息;
基于所述乐曲信息,提取相应的频谱特征,并基于所述频谱特征进行特征分析,获得第一分析结果;
基于所述声音信息,提取相应的语音特征,并基于所述语音特征进行特征分析,获得第二分析结果;
基于所述声音信息,提取相应的节奏特征,并基于所述节奏特征分析,获得所述待识别歌曲的第三分析结果;
基于所述第一分析结果、所述第二分析结果和所述第三分析结果,结合预设的歌曲样本集合,获得所述待识别歌曲的目标识别结果。
可选的,基于所述乐曲信息,提取相应的频谱特征,包括:
基于所述乐曲信息,采用短时傅里叶变换提取出相应的频谱特征;
基于所述声音信息,提取相应的语音特征,包括:
基于所述声音信息,采用短时能量和过零率以及解卷算法提取出相应的语音特征;
基于所述声音信息,提取相应的节奏特征,包括:
基于所述声音信息,采用信道补偿算法提取出相应的节奏特征。
可选的,基于所述第一分析结果、所述第二分析结果和所述第三分析结果,结合预设的歌曲样本集合,获得所述待识别歌曲的目标识别结果之前,进一步包括:
基于所述待识别歌曲的乐曲信息或/和声音信息,确定所述待识别歌曲的主题;
在预设的歌曲样本库中,筛选出与所述主题相匹配的歌曲样本,生成所述歌曲样本集合。
可选的,基于所述第一分析结果、所述第二分析结果和所述第三分析结果,结合预设的歌曲样本集合,获得所述待识别歌曲的目标识别结果,包括:
确定预设的相似度指标,以及确定所述第一分析结果对应的第一初始权重、所述第二分析结果对应的第二初始权重、所述第三分析结果对应的第三初始权重,所述相似度指标用于表征识别侧重因素;
若所述相似度指标在第一设定区间内,则基于所述第一设定区间对应的第一调整步长,上调所述第一分析结果的第一初始权重作为第一目标权重,以及对应调整所述第二分析结果的第二初始权重作为第二目标权重,对应调整所述第三分析结果的第三初始权重作为第三目标权重;
若所述相似度指标在第二设定区间内,则基于所述第二设定区间对应的第二调整步长,上调所述第二分析结果的第二初始权重作为第二目标权重,以及对应调整所述第一分析结果的第一初始权重作为第一目标权重,对应调整所述第三分析结果的第三初始权重作为第三目标权重;
若所述相似度指标在第三设定区间内,则基于所述第三设定区间对应的第三调整步长,上调所述第三分析结果的第三初始权重作为第三目标权重,以及对应调整所述第一分析结果的第一初始权重作为第一目标权重,对应调整所述第二分析结果的第二初始权重作为第二目标权重;
基于所述第一分析结果及第一目标权重、所述第二分析结果及第二目标权重、所述第三分析结果及第三目标权重,结合预设的歌曲样本集合,获得所述待识别歌曲的目标识别结果。
可选的,基于所述第一分析结果及第一目标权重、所述第二分析结果及第二目标权重、所述第三分析结果及第三目标权重,结合预设的歌曲样本集合,获得所述待识别歌曲的目标识别结果,包括:
将所述歌曲样本集合按照歌曲演绎方式或演唱者身份,划分为多个子集合;
针对各个子集合执行以下操作:基于所述第一分析结果及第一目标权重、所述第二分析结果及第二目标权重、所述第三分析结果及第三目标权重,在一个子集合中执行匹配操作,获得相应的子识别结果;
在获得的各个子识别结果中,若相同的子识别结果的数目达到设定门限值,则将所述相同的子识别结果作为所述待识别歌曲的目标识别结果输出。
第二方面,一种歌曲识别的装置,包括:
分离单元,用于对待识别歌曲进行音乐和人声分离,获得相应的乐曲信息和声音信息;
第一提取单元,用于基于所述乐曲信息,提取相应的频谱特征,并基于所述频谱特征进行特征分析,获得第一分析结果;
第二提取单元,用于基于所述声音信息,提取相应的语音特征,并基于所述语音特征进行特征分析,获得第二分析结果;
第三提取单元,用于基于所述声音信息,提取相应的节奏特征,并基于所述节奏特征分析,获得所述待识别歌曲的第三分析结果;
识别单元,用于基于所述第一分析结果、所述第二分析结果和所述第三分析结果,结合预设的歌曲样本集合,获得所述待识别歌曲的目标识别结果。
可选的,基于所述乐曲信息,提取相应的频谱特征,所述第一提取单元用于:
基于所述乐曲信息,采用短时傅里叶变换提取出相应的频谱特征;
基于所述声音信息,提取相应的语音特征,所述第二提取单元用于:
基于所述声音信息,采用短时能量和过零率以及解卷算法提取出相应的语音特征;
基于所述声音信息,提取相应的节奏特征,所述第三提取单元用于:
基于所述声音信息,采用信道补偿算法提取出相应的节奏特征。
可选的,基于所述第一分析结果、所述第二分析结果和所述第三分析结果,结合预设的歌曲样本集合,获得所述待识别歌曲的目标识别结果之前,所述识别单元进一步用于:
基于所述待识别歌曲的乐曲信息或/和声音信息,确定所述待识别歌曲的主题;
在预设的歌曲样本库中,筛选出与所述主题相匹配的歌曲样本,生成所述歌曲样本集合。
可选的,基于所述第一分析结果、所述第二分析结果和所述第三分析结果,结合预设的歌曲样本集合,获得所述待识别歌曲的目标识别结果,所述识别单元用于:
确定预设的相似度指标,以及确定所述第一分析结果对应的第一初始权重、所述第二分析结果对应的第二初始权重、所述第三分析结果对应的第三初始权重,所述相似度指标用于表征识别侧重因素;
若所述相似度指标在第一设定区间内,则基于所述第一设定区间对应的第一调整步长,上调所述第一分析结果的第一初始权重作为第一目标权重,以及对应调整所述第二分析结果的第二初始权重作为第二目标权重,对应调整所述第三分析结果的第三初始权重作为第三目标权重;
若所述相似度指标在第二设定区间内,则基于所述第二设定区间对应的第二调整步长,上调所述第二分析结果的第二初始权重作为第二目标权重,以及对应调整所述第一分析结果的第一初始权重作为第一目标权重,对应调整所述第三分析结果的第三初始权重作为第三目标权重;
若所述相似度指标在第三设定区间内,则基于所述第三设定区间对应的第三调整步长,上调所述第三分析结果的第三初始权重作为第三目标权重,以及对应调整所述第一分析结果的第一初始权重作为第一目标权重,对应调整所述第二分析结果的第二初始权重作为第二目标权重;
基于所述第一分析结果及第一目标权重、所述第二分析结果及第二目标权重、所述第三分析结果及第三目标权重,结合预设的歌曲样本集合,获得所述待识别歌曲的目标识别结果。
可选的,基于所述第一分析结果及第一目标权重、所述第二分析结果及第二目标权重、所述第三分析结果及第三目标权重,结合预设的歌曲样本集合,获得所述待识别歌曲的目标识别结果,所述识别单元用于:
将所述歌曲样本集合按照歌曲演绎方式或演唱者身份,划分为多个子集合;
针对各个子集合执行以下操作:基于所述第一分析结果及第一目标权重、所述第二分析结果及第二目标权重、所述第三分析结果及第三目标权重,在一个子集合中执行匹配操作,获得相应的子识别结果;
在获得的各个子识别结果中,若相同的子识别结果的数目达到设定门限值,则将所述相同的子识别结果作为所述待识别歌曲的目标识别结果输出。
第三方面,一种计算机设备,包括:
存储器,用于存储可执行指令;
处理器,用于读取并执行存储器中存储的可执行指令,以实现如上述第一方面中任一项所述的方法。
第四方面,一种计算机可读存储介质,当所述计算机可读存储介质中的指令由处理器执行时,使得所述处理器能够执行如上述第一方面中任一项所述的方法。
本公开实施例中,智能设备基于待识别歌曲进行音乐和人声分离,获得相应的乐曲信息和声音信息,再分别提取出相应的频谱特征、语音特征以及节奏特征,并进行特征分析,获得对应的第一分析结果、第二分析结果以及第三分析结果,并结合预设的歌曲样本集合,获得所述待识别歌曲的目标识别结果;这样,就可以基于对每一首歌曲提取出的频谱特征、语音特征和节奏特征,在预设的歌曲样本集合中进行定向识别,从而获得与待识别歌曲的各个特征具有高度相似度的歌曲,提高了识别结果的准确性,同时也避免了相关技术下,逐一匹配操作流程的效率低、误差大的问题。
附图说明
图1为本公开实施例中智能设备对歌曲进行识别的具体流程图;
图2为本公开实施例中基于音频数据文件获得的频谱图像示意图;
图3为本公开实施例中基于声音信息获得的语音仿真波形示意图;
图4为本公开实施例中歌曲识别装置逻辑结构示意图;
图5为本公开实施例中计算机设备实体结构示意图。
具体实施方式
为了解决相关技术下歌曲识别的准确率低下的问题,本公开实施例中,首先对待识别歌曲进行音乐和人声分离,获得相应的乐曲信息和声音信息,再分别基于所述乐曲信息和所述声音信息,提取相应的频谱特征、语意特征以及节奏特征,进一步,分别通过特征分析获得所述待识别歌曲的第一分析结果、第二分析结果以及第三分析结果,再基于所述第一分析结果、第二分析结果以及第三分析结果,获得所述识别歌曲的目标识别结果,这样就可以基于提取的待识别歌曲的频谱特征、语义特征以及节奏特征,获得与待识别歌曲的各个特征高度相似度的歌曲,从而准确地、高效地为用户推荐满足用户使用需求的歌曲,有效避免了相关技术下,逐一匹配操作流程的效率低、误差大的问题。
下面结合附图对本公开优选的实施方式作出进一步详细说明。
本公开实施例中,智能设备需要预先建立一个歌曲样本库,所述歌曲样本库中记录有海量的各种类型的歌曲,这些歌曲可以当作样本数据用于训练各类模型。其中,所述智能设备是可以安装各类应用,并且能够将已安装的应用中提供的对象进行显示的设备,例如,智能手机、平板电脑、手提电脑、PC机等。
可选的,本公开实施例中,可以基于歌曲样本库中的样本数据,生成三个测试样本集,分别记为测试样本集1、测试样本集2、测试样本3;这三个测试样本集分别用于训练频谱识别模型、语音识别模型和节奏识别模型。
具体的模型训练过程如下:
1)基于测试样本集1对频谱识别模型进行训练。
本公开实施例中,针对测试样本集1中包含的各个测试样本,可选的,可以采用短时傅里叶变换,获得各个测试样本对应的频谱图像并提取出相应的频谱特征,再将获得的各个频谱特征输入初始的频谱识别模型中进行训练,获得最终使用的频谱识别模型。
另一方面,本公开实施例中,之所以会训练频谱识别模型,还有一个原因,是歌曲库中还存在大量的改编歌曲,而改编歌曲与原版歌曲相比,存在着不同的频谱特征,因此,需要采用多种频谱特征对频谱识别模型进行训练。
2)基于测试样本集2对语音识别模型进行训练。
本公开实施例中,之所以会训练语音识别模型,是因为歌曲中歌词的语音特征,与日常生活中的正常对话的语音特征是不同的,歌词中存在大量的特殊的语音特征,例如,由于歌曲中歌词存在押韵、抽象表达等描述手法,因此,会产生押韵语音特征、模糊语音特征等。另外,歌手在演唱歌词时,为了表达各自的个性演唱特征,会采用特殊的演唱方式,例如,吞音、重音等,因此,就会产生对应的语音特征,例如,清音语音特征、浊音语音特征等。
因此,本公开实施例中,针对测试样本集2中包含的各个测试样本,可选的,可以采用短时能量和过零率以及解卷算法,获得各个测试样本对应的语音仿真波形并提取出相应的语音特征,再将获得的各个语音特征输入初始的语音识别模型中进行训练,可选的,可以采用列文伯格-马夸尔特法(Levenberg–Marquardt,LM)进行训练,从而获得最终使用的语音识别模型。
3)基于测试样本集3对节奏识别模型进行训练。
本公开实施例中,之所以会训练节奏识别模型,是因为不同歌曲通常会有不同曲风,而为了表达不同曲风对应的风格及情绪,歌手在演唱歌词时,会采用不同的演唱方式,例如,快语速演唱、慢语速演唱,多人演唱等,因此,会令歌词的表达产生不同的节奏特征,例如,快节奏特征、慢节奏特征、混合节奏特征等。
因此,本公开实施例中,针对测试样本集3中包含的各个测试样本,可选的,可以采用信道补偿算法(Probabilistic Linear Discriminant Analysis,PLDA),获得各个测试样本对应的声音语谱图,并提取出相应的节奏特征,再将获得的各个节奏特征输入初始的节奏识别模型中进行训练,从而获得最终使用的节奏识别模型。
本公开实施例中,基于所述频谱识别模型、所述语音识别模型以及所述节奏识别模型,便可以对任意一首歌曲提取对应的频谱特征、语音特征以及节奏特征,从而实现对该歌曲的准确识别。
参阅图1所示,本公开实施例中,智能设备对歌曲进行识别的具体流程如下:
步骤100:智能设备对待识别歌曲进行音乐和人声分离,获得相应的乐曲信息和声音信息。
本公开实施例中,可选的,智能设备在获得待识别歌曲后,可以采用通用的音乐和人声分离的方法,例如,音轨分离软件(Spleeter),基于深度神经网络的分离算法,对待识别歌曲进行音乐和人声分离,从而获得相应的乐曲信息和声音信息。
步骤110:智能设备基于所述乐曲信息,提取相应的频谱特征,并基于所述频谱特征进行特征分析,获得第一分析结果。
本公开实施例中,智能设备在获得乐曲信息后,可选的,可以采用短时傅里叶变换(Short-time Fourier Transform,STFT),获得乐曲信息对应的频谱图像并提取出相应的各个频谱特征,再将提取的各个频谱特征输入已训练的频谱识别模型进行特征分析,从而获得第一分析结果。
例如,参阅图2所示,假设所述待识别歌曲为“青花”,以及采用音轨分离软件对所述待识别歌曲进行音乐和人声分离。
首先,智能设备获得歌曲“青花.mp3”这一音频数据文件,将“青花.mp3”输入音轨分离软件,从而获得相应的乐曲信息和声音信息,其中,所述乐曲信息记为“青花”乐曲信息,所述声音信息记为“青花”声音信息。
然后,对所述“青花”乐曲信息进行短时傅里叶变换,获得对应的频谱图像,再基于所述频谱图像提取出相应的各个频谱特征,如图2所示,所述各个频谱特征可以为:在获得的频谱图像中,从1.5s波形开始出现振幅值,在1.9s时波形出现最大振幅值,最大振幅值为±0.3,在2.0s时波形的振幅值为0,在2.1s时波形的振幅值为±0.1。
具体的,为了便于描述,本申请实施例中提供的所述乐曲信息的频谱图像仅为举例,图2中所示的频谱图像并非经过严格的短时傅里叶变换后得到的真实频谱图像。
步骤120:智能设备基于所述声音信息,提取相应的语音特征,并基于所述语音特征进行特征分析,获得第二分析结果。
本公开实施中,智能设备在获得声音信息后,可选的,可以采用短时能量和过零率以及解卷算法,获得声音信息对应的语音仿真波形并提取出相应的各个语音特征,再将提取的各个语音特征输入已训练的语音识别模型进行特征分析,从而获得第二分析结果。
例如,参阅图3所示,仍以“青花”乐曲信息和“青花”声音信息为例。
基于获得的“青花”声音信息,对所述“青花”声音信息进行短时能量和过零率以及解卷算法,获得对应的语音仿真波形,再基于所述语音仿真波形提取出相应的各个语音特征,如图3所示,所述各个语音特征可以为:在获得的语音仿真波形中,在1.6s时出现押韵语音特征,在2s时出现清音语音特征。
具体的,为了便于描述,本申请实施例中提供的所述声音信息的语音仿真波形仅为举例,图3中所示的语音仿真波形并非经过严格的短时能量和过零率以及解卷算法后得到的真实语音仿真波形。
步骤130:智能设备基于所述声音信息,提取相应的节奏特征,并基于所述节奏特征分析,获得所述待识别歌曲的第三分析结果。
本公开实施中,智能设备在获得声音信息后,可选的,可以采用信道补偿算法,获得声音信息对应的声音语谱图并提取出相应的各个节奏特征,再将提取的各个节奏特征输入已训练的节奏识别模型进行特征分析,从而获得第三分析结果。
例如,仍以“青花”乐曲信息和“青花”声音信息为例。
基于获得的“青花”声音信息,对所述“青花”声音信息进行信道补偿算法,获得对应的声音语谱图,并提取出相应的各个节奏特征,所述各个节奏特征可以为:在1.5-1.7s之间出现慢节奏特征,在1.8-1.9s之间出现混合节奏特征。
步骤140:智能设备基于所述第一分析结果、所述第二分析结果和所述第三分析结果,结合预设的歌曲样本集合,获得所述待识别歌曲的目标识别结果。
本公开实施例中,在执行步骤130之后,在执行步骤140之前,智能设备基于所述待识别歌曲的乐曲信息或/和声音信息,可以先确定所述待识别歌曲的主题;然后,在预设的歌曲样本库中,筛选出与所述主题相匹配的歌曲样本,生成所述歌曲样本集合。
例如:仍以“青花”乐曲信息和“青花”声音信息为例。
智能设备基于所述“青花”乐曲信息或/和“青花”声音信息,可以确定“青花”的主题为抒情。
然后,在预设的歌曲样本库中,筛选出主题为抒情的各个歌曲样本,记为歌曲样本1、歌曲样本2、歌曲样本3……,那么,再基于歌曲样本1、歌曲样本2、歌曲样本3……,生成待使用的歌曲样本集合。
这样,可以通过待识别歌曲的主题进行定向识别,从而降低智能设备在歌曲识别过程中的工作量,减低了识别过程的时间成本。
在获得筛选出的歌曲样本集合后,进一步地,在执行步骤140时,智能设备可以基于所述第一分析结果、所述第二分析结果和所述第三分析结果,确定预设的相似度指标,以及确定所述第一分析结果对应的第一初始权重、所述第二分析结果对应的第二初始权重、所述第三分析结果对应的第三初始权重,所述相似度指标用于表征识别侧重因素。其中,所述相似度指标的取值可以调整,如,所述相似度指标的取值范围可以为[1,10]。
那么,基于相似度指标的取值不同,智能设备可以对第一初始权重、第二初始权重和第三初始权重采用不同的调整方式,具体的调整方式包含但不限于以下三种:
方式1,若所述相似度指标在第一设定区间内,则基于所述第一设定区间对应的第一调整步长,上调所述第一分析结果的第一初始权重作为第一目标权重,以及对应调整所述第二分析结果的第二初始权重作为第二目标权重,对应调整所述第三分析结果的第三初始权重作为第三目标权重。
例如,以仍以“青花”乐曲信息和“青花”声音信息为例。
智能设备基于“青花”乐曲信息,提取相应的频谱特征,并基于所述频谱特征进行特征分析,获得“青花”第一分析结果;再基于“青花”声音信息,提取相应的语音特征并基于所述语音特征进行特征分析,获得“青花”第二分析结果;以及基于“青花”声音信息,提取相应的节奏特征,并基于所述节奏特征分析,获得所述待识别歌曲的“青花”第三分析结果。
进一步,智能设备基于“青花”第一分析结果、“青花”第二分析结果和“青花”第三分析结果,确定“青花”第一分析结果对应的第一初始权重、“青花”第二分析结果对应的第二初始权重、“青花”第三分析结果对应的第三初始权重。
假设“青花”第一分析结果对应的第一初始权重为33%,“青花”第二分析结果对应的第二初始权重为33%,以及“青花”第三分析结果对应的第三初始权重为34%。
又假设所述相似度指标的取值为2,以及所述第一设定区间为[0,3],对应的所述第一调整步长为10%;以及所述第二初始权重对应调整的调整内容为下调6%,所述第三初始权重对应调整的调整内容为下调4%。
可见,由于相似度指标的取值在所述第一设定区间内,即2∈[0,3],则智能设备基于所述第一设定区间对应的第一调整步长(即10%),将“青花”第一分析结果对应的第一初始权重上调所述第一调整步长,得到第一目标权重;将“青花”第二分析结果对应的第二初始权重对应调整的内容为下调6%,得到第二目标权重;将“青花”第三分析结果对应的第三初始权重对应调整的内容为下调4%,得到第三目标权重。
因此,最终获得的所述第一目标权重为33%+10%=43%;最终获得的所述第二目标权重为33%-6%=27%;最终得到的所述第三目标权重为34%-4%=30%。
方式2,若所述相似度指标在第二设定区间内,则基于所述第二设定区间对应的第二调整步长,上调所述第二分析结果的第二初始权重作为第二目标权重,以及对应调整所述第一分析结果的第一初始权重作为第一目标权重,对应调整所述第三分析结果的第三初始权重作为第三目标权重。
例如,以仍以“青花”第一分析结果、“青花”第二分析结果、“青花”第三分析结果为例。
智能设备基于“青花”第一分析结果、“青花”第二分析结果和“青花”第三分析结果,确定“青花”第一分析结果对应的第一初始权重、“青花”第二分析结果对应的第二初始权重、“青花”第三分析结果对应的第三初始权重。
假设“青花”第一分析结果对应的第一初始权重为0%,“青花”第二分析结果对应的第二初始权重为0%,以及“青花”第三分析结果对应的第三初始权重为0%。
又假设所述相似度指标的取值为5,以及所述第二设定区间为[3.1,6],对应的所述第二调整步长为20%;以及所述第一初始权重对应调整的调整内容为上调30%,和所述第三初始权重对应调整的调整内容为上调50%。
可见,由于相似度指标的取值在所述第二设定区间内,即5∈[3.1,6],则智能设备基于所述第二设定区间对应的第二调整步长(即20%),将“青花”第二分析结果对应的第二初始权重上调所述第二调整步长,得到第二目标权重;将“青花”第一分析结果对应的第一初始权重对应上调30%,得到第一目标权重;将“青花”第三分析结果对应的第三初始权重对应上调50%,得到第三目标权重。
因此,最终获得的所述第一目标权重为0%+30%=30%;最终获得的所述第二目标权重为0%+20%=20%;最终得到的所述第三目标权重为0%+50%=50%。
方式3,若所述相似度指标在第三设定区间内,则基于所述第三设定区间对应的第三调整步长,上调所述第三分析结果的第三初始权重作为第三目标权重,以及对应调整所述第一分析结果的第一初始权重作为第一目标权重,对应调整所述第二分析结果的第二初始权重作为第二目标权重。
例如,以仍以“青花”第一分析结果、“青花”第二分析结果、“青花”第三分析结果为例。
智能设备基于“青花”第一分析结果、“青花”第二分析结果和“青花”第三分析结果,确定“青花”第一分析结果对应的第一初始权重、“青花”第二分析结果对应的第二初始权重、“青花”第三分析结果对应的第三初始权重。
假设“青花”第一分析结果对应的第一初始权重为50%,“青花”第二分析结果对应的第二初始权重为25%,以及“青花”第三分析结果对应的第三初始权重为25%。
又假设所述相似度指标的取值为8,以及所述第三设定区间为[6.1,10],对应的所述第三调整步长为20%;以及所述第一初始权重对应调整的调整内容为下调20%,所述第二初始权重对应调整的调整内容为不调整。
可见,由于相似度指标的取值在所述第二设定区间内,即8∈[6.1,10],则智能设备基于所述第二设定区间对应的第二调整步长(即20%),将“青花”第三分析结果对应的第三初始权重上调所述第三调整步长,得到第三目标权重;将“青花”第一分析结果对应的第一初始权重对应上调10%,得到第一目标权重;将“青花”第二分析结果对应的第二初始权重作为第二目标权重。
因此,最终获得的所述第一目标权重为50%+20%=70%;最终获得的所述第二目标权重为25%;最终得到的所述第三目标权重为25%-20%=5%。
然后,智能设备可以基于所述第一分析结果及第一目标权重、所述第二分析结果及第二目标权重、所述第三分析结果及第三目标权重,结合预设的歌曲样本集合,获得所述待识别歌曲的目标识别结果。
这样,智能设备可以灵活地调整所述第一分析结果、所述第二分析结果以及所述第三分析结果在歌曲识别过程中的比例,从而决定在歌曲识别过程中,哪一个分析结果为计算相似度的重点因素,进而获得侧重所述重点因素的匹配歌曲。
例如:仍以“青花”歌曲样本为例。
基于“青花”歌曲样本,提取出所述第一分析结果为“青花”频谱特征、所述第二分析结果为“青花”语音特征、所述三分析结果为“青花”节奏特征。
当所述第一分析结果对应的第一初始权重经过调整,获得最终的第一目标权重为100%,那么,所述第二分析结果对应的第二目标权重和所述第三分析结果对应的第三目标权重均为0%,则智能设备就以所述“青花”频谱特征为计算相似度的重点因素,结合预设的歌曲样本集合,获得仅侧重所述“青花”频谱特征的匹配歌曲。
当所述第二分析结果对应的第二初始权重经过调整,获得最终的第二目标权重为100%,那么,所述第一分析结果对应的第一目标权重和所述第三分析结果对应的第三目标权重均为0%,则智能设备就以所述“青花”语音特征为计算相似度的重点因素,结合预设的歌曲样本集合,获得仅侧重所述“青花”语音特征的匹配歌曲。
当所述第三分析结果对应的第三初始权重经过调整,获得最终的第三目标权重为100%,那么,所述第一分析结果对应的第一目标权重和所述第二分析结果对应的第二目标权重均为0%,则智能设备就以所述“青花”节奏特征为计算相似度的重点因素,结合预设的歌曲样本集合,获得仅侧重所述“青花”节奏特征的匹配歌曲。
当所述第一分析结果对应的第一初始权重经过调整,获得最终的第一目标权重为30%,所述第二分析结果对应的第二初始权重经过调整,获得最终的第二目标权重为40%,以及所述第三分析结果对应的第三初始权重经过调整,获得最终的第三目标权重为30%,则智能设备就需要同时兼具“青花”频谱特征、“青花”语音特征以及“青花”节奏特征,分别计算相应的相似度,获得对应的匹配歌曲。
另一方面,实际应用中,在基于主题筛选获得的歌曲样本集合中,还可能存在海量的歌曲样本,为了进一步降低歌曲识别的计算量,可选的,智能设备还可以执行以下操作:
A、将歌曲样本集合按照歌曲演绎方式或演唱者身份,划分为多个子集合。
这样处理的原因为:歌曲样本集合包含的各个歌曲样本,还会包含一些细微的区别特征,这些区别特征,可以进一步区分不同类别的歌曲。
例如,同一歌曲样本被不同的歌手演唱。
又例如:同一歌曲样本被收录在不同的专辑。
……
因此,如果直接基于上述第一分析结果、第二分析结果和第三分析结果,将待识别歌曲与歌曲样本集合包含的各个歌曲样本进行逐一匹配,会花费大量时间,降低识别效率。
有鉴于此,本公开实施例中,将歌曲样本集合按照歌曲演绎方式或演唱者身份,划分为多个子集合,这样,可以基于子集合分别进行匹配,以降低识别过程的时间成本。
例如,仍以待识别歌曲“青花”为例。
在所述歌曲样本集合中,存在多个演唱者身份,假设所述多个演唱者身份依次为“小张”、“小王”、“小李”、……
智能设备可以将所述歌曲样本集合按照演唱者身份,划分为多个子集合,记为“小张”子集合、“小王”子集合、“小李”子集合、……
这样,智能设备在进行歌曲识别时,就可以从各个子集合中进行匹配,从而降低了智能设备的识别工作量,以及降低了识别过程的时间成本。
B、智能设备可以针对各个子集合执行以下操作:基于所述第一分析结果及第一目标权重、所述第二分析结果及第二目标权重、所述第三分析结果及第三目标权重,在一个子集合中执行匹配操作,获得相应的子识别结果。
例如,仍以待识别歌曲“青花”为例。
假设智能设备基于演唱者身份对所述歌曲样本集合进行划分,获得5个子集合,依次为子集合1、子集合2、子集合3、子集合4、子集合5,这5个子集合的并集包含的歌曲样本的数目,可以小于所述歌曲样本集合,即将未知身份的歌手演唱的歌曲样本过滤掉,以减小识别过程的计算量。
智能设备基于所述第一分析结果及第一目标权重、所述第二分析结果及第二目标权重、所述第三分析结果及第三目标权重,从各个子集合中执行匹配操作,获得相应的子识别结果。
那么,假设智能设备从子集合1中识别出的子识别结果1为:“青花”,从子集合2中识别出的子识别结果2为:“青花”,从子集合3中识别出的子识别结果3为:“花青”,从子集合4中识别出的子识别结果4为“青花”;从子集合5中识别出的子识别结果5为“青花青”。
C、智能设备通过设置设定门限值,对所述各个子识别结果进行筛选。可选的,在获得的各个子识别结果中,若相同的子识别结果的数目达到所述设定门限值,则将所述相同的子识别结果作为所述待识别歌曲的目标识别结果输出。
例如,仍以待识别歌曲“青花”为例。
假设设定门限值为2,那么,由于子识别结果1为“青花”,子识别结果2为“青花”,子识别结果4为“青花”,即相同的子识别结果的数目为3,已达到设定门限值2,因此,最终输出的目标识别结果为:青花。
当然,也可以不用将所有子集合均识别完毕,再确定最终的目标识别结果,即每获得一个子识别结果,即判断相同的子识别结果的数目是否达到设定门限值,若达到,则直接输出目标识别结果,而无需再对后续子集合进行识别,这样,可以进一步降低识别过程的计算量。
例如,在上述实施例中,在智能设备从子集合1中识别出的子识别结果1为:“青花”,从子集合2中识别出的子识别结果2为:“青花”之后,即可确定相同的子识别结果的数目已达到设定门限值,则无需再对子集合3、子集合4、子集合5进行匹配。
基于同一发明构思,参阅图4所示,本公开实施例提供一种歌曲识别的装置,包括:
分离单元401,用于对待识别歌曲进行音乐和人声分离,获得相应的乐曲信息和声音信息;
第一提取单元402,用于基于所述乐曲信息,提取相应的频谱特征,并基于所述频谱特征进行特征分析,获得第一分析结果;
第二提取单元403,用于基于所述声音信息,提取相应的语音特征,并基于所述语音特征进行特征分析,获得第二分析结果;
第三提取单元404,用于基于所述声音信息,提取相应的节奏特征,并基于所述节奏特征分析,获得所述待识别歌曲的第三分析结果;
识别单元405,用于基于所述第一分析结果、所述第二分析结果和所述第三分析结果,结合预设的歌曲样本集合,获得所述待识别歌曲的目标识别结果。
可选的,基于所述乐曲信息,提取相应的频谱特征,所述第一提取单元402用于:
基于所述乐曲信息,采用短时傅里叶变换提取出相应的频谱特征;
基于所述声音信息,提取相应的语音特征,所述第二提取单元403用于:
基于所述声音信息,采用短时能量和过零率以及解卷算法提取出相应的语音特征;
基于所述声音信息,提取相应的节奏特征,所述第三提取单元404用于:
基于所述声音信息,采用信道补偿算法提取出相应的节奏特征。
可选的,基于所述第一分析结果、所述第二分析结果和所述第三分析结果,结合预设的歌曲样本集合,获得所述待识别歌曲的目标识别结果之前,所述识别单元405进一步用于:
基于所述待识别歌曲的乐曲信息或/和声音信息,确定所述待识别歌曲的主题;
在预设的歌曲样本库中,筛选出与所述主题相匹配的歌曲样本,生成所述歌曲样本集合。
可选的,基于所述第一分析结果、所述第二分析结果和所述第三分析结果,结合预设的歌曲样本集合,获得所述待识别歌曲的目标识别结果,所述识别单元405用于:
确定预设的相似度指标,以及确定所述第一分析结果对应的第一初始权重、所述第二分析结果对应的第二初始权重、所述第三分析结果对应的第三初始权重,所述相似度指标用于表征识别侧重因素;
若所述相似度指标在第一设定区间内,则基于所述第一设定区间对应的第一调整步长,上调所述第一分析结果的第一初始权重作为第一目标权重,以及对应调整所述第二分析结果的第二初始权重作为第二目标权重,对应调整所述第三分析结果的第三初始权重作为第三目标权重;
若所述相似度指标在第二设定区间内,则基于所述第二设定区间对应的第二调整步长,上调所述第二分析结果的第二初始权重作为第二目标权重,以及对应调整所述第一分析结果的第一初始权重作为第一目标权重,对应调整所述第三分析结果的第三初始权重作为第三目标权重;
若所述相似度指标在第三设定区间内,则基于所述第三设定区间对应的第三调整步长,上调所述第三分析结果的第三初始权重作为第三目标权重,以及对应调整所述第一分析结果的第一初始权重作为第一目标权重,对应调整所述第二分析结果的第二初始权重作为第二目标权重;
基于所述第一分析结果及第一目标权重、所述第二分析结果及第二目标权重、所述第三分析结果及第三目标权重,结合预设的歌曲样本集合,获得所述待识别歌曲的目标识别结果。
可选的,基于所述第一分析结果及第一目标权重、所述第二分析结果及第二目标权重、所述第三分析结果及第三目标权重,结合预设的歌曲样本集合,获得所述待识别歌曲的目标识别结果,所述识别单元405用于:
将所述歌曲样本集合按照歌曲演绎方式或演唱者身份,划分为多个子集合;
针对各个子集合执行以下操作:基于所述第一分析结果及第一目标权重、所述第二分析结果及第二目标权重、所述第三分析结果及第三目标权重,在一个子集合中执行匹配操作,获得相应的子识别结果;
在获得的各个子识别结果中,若相同的子识别结果的数目达到设定门限值,则将所述相同的子识别结果作为所述待识别歌曲的目标识别结果输出。
基于同一发明构思,参阅图5所示,本公开实施例提供一种计算机设备,包括:
存储器501,用于存储可执行指令;
处理器502,用于读取并执行存储器501中存储的可执行指令,以实现上述各个实施例中介绍的任意一种方法。
基于同一发明构思,本公开实施例提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由处理器执行时,使得所述处理器能够执行上述各个实施例中介绍的任意一种方法。
综上所述,本公开实施例中,智能设备基于待识别歌曲进行音乐和人声分离,获得相应的乐曲信息和声音信息,再分别提取出相应的频谱特征、语音特征以及节奏特征,进而基于所述频谱特征、所述语音特征以及所述节奏特征进行特征分析,获得对应的第一分析结果、第二分析结果以及第三分析结果,并结合预设的歌曲样本集合,获得所述待识别歌曲的目标识别结果;这样,就可以基于对每一首歌曲提取出的频谱特征、语音特征和节奏特征,在预设的歌曲样本集合中进行定向识别,从而获得与待识别歌曲的各个特征具有高度相似度的歌曲,提高了识别结果的准确性,同时也避免了相关技术下,逐一匹配操作流程的效率低、误差大的问题。
另一方面,智能设备还可以灵活地调整所述第一分析结果、所述第二分析结果以及所述第三分析结果对应的初始权重,获得相应的目标权重,再结合预设的歌曲样本库,有侧重性地参考不同元素识别出对应的目标识别结果。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本公开的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本公开范围的所有变更和修改。
显然,本领域的技术人员可以对本公开实施例进行各种改动和变型而不脱离本公开实施例的精神和范围。这样,倘若本公开实施例的这些修改和变型属于本公开权利要求及其等同技术的范围之内,则本公开也意图包含这些改动和变型在内。
Claims (10)
1.一种歌曲识别的方法,其特征在于,包括:
对待识别歌曲进行音乐和人声分离,获得相应的乐曲信息和声音信息;
基于所述乐曲信息,提取相应的频谱特征,并基于所述频谱特征进行特征分析,获得第一分析结果;
基于所述声音信息,提取相应的语音特征,并基于所述语音特征进行特征分析,获得第二分析结果;
基于所述声音信息,提取相应的节奏特征,并基于所述节奏特征分析,获得所述待识别歌曲的第三分析结果;
基于所述第一分析结果、所述第二分析结果和所述第三分析结果,结合预设的歌曲样本集合,获得所述待识别歌曲的目标识别结果;
基于所述第一分析结果、所述第二分析结果和所述第三分析结果,结合预设的歌曲样本集合,获得所述待识别歌曲的目标识别结果,包括:
确定预设的相似度指标,以及确定所述第一分析结果对应的第一初始权重、所述第二分析结果对应的第二初始权重、所述第三分析结果对应的第三初始权重,所述相似度指标用于表征识别侧重因素;
若所述相似度指标在第一设定区间内,则基于所述第一设定区间对应的第一调整步长,上调所述第一分析结果的第一初始权重作为第一目标权重,以及对应调整所述第二分析结果的第二初始权重作为第二目标权重,对应调整所述第三分析结果的第三初始权重作为第三目标权重;
若所述相似度指标在第二设定区间内,则基于所述第二设定区间对应的第二调整步长,上调所述第二分析结果的第二初始权重作为第二目标权重,以及对应调整所述第一分析结果的第一初始权重作为第一目标权重,对应调整所述第三分析结果的第三初始权重作为第三目标权重;
若所述相似度指标在第三设定区间内,则基于所述第三设定区间对应的第三调整步长,上调所述第三分析结果的第三初始权重作为第三目标权重,以及对应调整所述第一分析结果的第一初始权重作为第一目标权重,对应调整所述第二分析结果的第二初始权重作为第二目标权重;
基于所述第一分析结果及第一目标权重、所述第二分析结果及第二目标权重、所述第三分析结果及第三目标权重,结合预设的歌曲样本集合,获得所述待识别歌曲的目标识别结果。
2.如权利要求1所述的方法,其特征在于,基于所述乐曲信息,提取相应的频谱特征,包括:
基于所述乐曲信息,采用短时傅里叶变换提取出相应的频谱特征;
基于所述声音信息,提取相应的语音特征,包括:
基于所述声音信息,采用短时能量和过零率以及解卷算法提取出相应的语音特征;
基于所述声音信息,提取相应的节奏特征,包括:
基于所述声音信息,采用信道补偿算法提取出相应的节奏特征。
3.如权利要求1所述的方法,其特征在于,基于所述第一分析结果、所述第二分析结果和所述第三分析结果,结合预设的歌曲样本集合,获得所述待识别歌曲的目标识别结果之前,进一步包括:
基于所述待识别歌曲的乐曲信息或/和声音信息,确定所述待识别歌曲的主题;
在预设的歌曲样本库中,筛选出与所述主题相匹配的歌曲样本,生成所述歌曲样本集合。
4.如权利要求1所述的方法,其特征在于,基于所述第一分析结果及第一目标权重、所述第二分析结果及第二目标权重、所述第三分析结果及第三目标权重,结合预设的歌曲样本集合,获得所述待识别歌曲的目标识别结果,包括:
将所述歌曲样本集合按照歌曲演绎方式或演唱者身份,划分为多个子集合;
针对各个子集合执行以下操作:基于所述第一分析结果及第一目标权重、所述第二分析结果及第二目标权重、所述第三分析结果及第三目标权重,在一个子集合中执行匹配操作,获得相应的子识别结果;
在获得的各个子识别结果中,若相同的子识别结果的数目达到设定门限值,则将所述相同的子识别结果作为所述待识别歌曲的目标识别结果输出。
5.一种歌曲识别的装置,其特征在于,包括:
分离单元,用于对待识别歌曲进行音乐和人声分离,获得相应的乐曲信息和声音信息;
第一提取单元,用于基于所述乐曲信息,提取相应的频谱特征,并基于所述频谱特征进行特征分析,获得第一分析结果;
第二提取单元,用于基于所述声音信息,提取相应的语音特征,并基于所述语音特征进行特征分析,获得第二分析结果;
第三提取单元,用于基于所述声音信息,提取相应的节奏特征,并基于所述节奏特征分析,获得所述待识别歌曲的第三分析结果;
识别单元,用于基于所述第一分析结果、所述第二分析结果和所述第三分析结果,结合预设的歌曲样本集合,获得所述待识别歌曲的目标识别结果;
基于所述第一分析结果、所述第二分析结果和所述第三分析结果,结合预设的歌曲样本集合,获得所述待识别歌曲的目标识别结果,所述识别单元用于:
确定预设的相似度指标,以及确定所述第一分析结果对应的第一初始权重、所述第二分析结果对应的第二初始权重、所述第三分析结果对应的第三初始权重,所述相似度指标用于表征识别侧重因素;
若所述相似度指标在第一设定区间内,则基于所述第一设定区间对应的第一调整步长,上调所述第一分析结果的第一初始权重作为第一目标权重,以及对应调整所述第二分析结果的第二初始权重作为第二目标权重,对应调整所述第三分析结果的第三初始权重作为第三目标权重;
若所述相似度指标在第二设定区间内,则基于所述第二设定区间对应的第二调整步长,上调所述第二分析结果的第二初始权重作为第二目标权重,以及对应调整所述第一分析结果的第一初始权重作为第一目标权重,对应调整所述第三分析结果的第三初始权重作为第三目标权重;
若所述相似度指标在第三设定区间内,则基于所述第三设定区间对应的第三调整步长,上调所述第三分析结果的第三初始权重作为第三目标权重,以及对应调整所述第一分析结果的第一初始权重作为第一目标权重,对应调整所述第二分析结果的第二初始权重作为第二目标权重;
基于所述第一分析结果及第一目标权重、所述第二分析结果及第二目标权重、所述第三分析结果及第三目标权重,结合预设的歌曲样本集合,获得所述待识别歌曲的目标识别结果。
6.如权利要求5所述的装置,其特征在于,基于所述乐曲信息,提取相应的频谱特征,所述第一提取单元用于:
基于所述乐曲信息,采用短时傅里叶变换提取出相应的频谱特征;
基于所述声音信息,提取相应的语音特征,所述第二提取单元用于:
基于所述声音信息,采用短时能量和过零率以及解卷算法提取出相应的语音特征;
基于所述声音信息,提取相应的节奏特征,所述第三提取单元用于:
基于所述声音信息,采用信道补偿算法提取出相应的节奏特征。
7.如权利要求5所述的装置,其特征在于,基于所述第一分析结果、所述第二分析结果和所述第三分析结果,结合预设的歌曲样本集合,获得所述待识别歌曲的目标识别结果之前,所述识别单元进一步用于:
基于所述待识别歌曲的乐曲信息或/和声音信息,确定所述待识别歌曲的主题;
在预设的歌曲样本库中,筛选出与所述主题相匹配的歌曲样本,生成所述歌曲样本集合。
8.如权利要求5所述的装置,其特征在于,基于所述第一分析结果及第一目标权重、所述第二分析结果及第二目标权重、所述第三分析结果及第三目标权重,结合预设的歌曲样本集合,获得所述待识别歌曲的目标识别结果,所述识别单元用于:
将所述歌曲样本集合按照歌曲演绎方式或演唱者身份,划分为多个子集合;
针对各个子集合执行以下操作:基于所述第一分析结果及第一目标权重、所述第二分析结果及第二目标权重、所述第三分析结果及第三目标权重,在一个子集合中执行匹配操作,获得相应的子识别结果;
在获得的各个子识别结果中,若相同的子识别结果的数目达到设定门限值,则将所述相同的子识别结果作为所述待识别歌曲的目标识别结果输出。
9.一种计算机设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于读取并执行存储器中存储的可执行指令,以实现如权利要求1至4中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由处理器执行时,使得能够执行如权利要求1至4中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011291194.7A CN112270929B (zh) | 2020-11-18 | 2020-11-18 | 一种歌曲识别的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011291194.7A CN112270929B (zh) | 2020-11-18 | 2020-11-18 | 一种歌曲识别的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112270929A CN112270929A (zh) | 2021-01-26 |
CN112270929B true CN112270929B (zh) | 2024-03-22 |
Family
ID=74340279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011291194.7A Active CN112270929B (zh) | 2020-11-18 | 2020-11-18 | 一种歌曲识别的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112270929B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113643720B (zh) * | 2021-08-06 | 2024-07-26 | 腾讯音乐娱乐科技(深圳)有限公司 | 歌曲的特征提取模型训练方法、歌曲识别方法及相关设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5864804A (en) * | 1995-06-10 | 1999-01-26 | U.S. Philips Corporation | Voice recognition system |
CN105679324A (zh) * | 2015-12-29 | 2016-06-15 | 福建星网视易信息系统有限公司 | 一种声纹识别相似度评分的方法和装置 |
CN109308912A (zh) * | 2018-08-02 | 2019-02-05 | 平安科技(深圳)有限公司 | 音乐风格识别方法、装置、计算机设备及存储介质 |
CN109308901A (zh) * | 2018-09-29 | 2019-02-05 | 百度在线网络技术(北京)有限公司 | 歌唱者识别方法和装置 |
CN110442855A (zh) * | 2019-04-10 | 2019-11-12 | 北京捷通华声科技股份有限公司 | 一种语音分析方法和系统 |
CN110503961A (zh) * | 2019-09-03 | 2019-11-26 | 北京字节跳动网络技术有限公司 | 音频识别方法、装置、存储介质及电子设备 |
CN111508506A (zh) * | 2020-04-03 | 2020-08-07 | 北京达佳互联信息技术有限公司 | 音频文件的原唱检测方法、装置、服务器及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4594701B2 (ja) * | 2003-11-14 | 2010-12-08 | パイオニア株式会社 | 情報検索装置、情報検索方法及び情報検索用プログラム並びに情報記録媒体 |
JP5732994B2 (ja) * | 2011-04-19 | 2015-06-10 | ソニー株式会社 | 楽曲検索装置および方法、プログラム、並びに記録媒体 |
CN106024005B (zh) * | 2016-07-01 | 2018-09-25 | 腾讯科技(深圳)有限公司 | 一种音频数据的处理方法及装置 |
-
2020
- 2020-11-18 CN CN202011291194.7A patent/CN112270929B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5864804A (en) * | 1995-06-10 | 1999-01-26 | U.S. Philips Corporation | Voice recognition system |
CN105679324A (zh) * | 2015-12-29 | 2016-06-15 | 福建星网视易信息系统有限公司 | 一种声纹识别相似度评分的方法和装置 |
CN109308912A (zh) * | 2018-08-02 | 2019-02-05 | 平安科技(深圳)有限公司 | 音乐风格识别方法、装置、计算机设备及存储介质 |
CN109308901A (zh) * | 2018-09-29 | 2019-02-05 | 百度在线网络技术(北京)有限公司 | 歌唱者识别方法和装置 |
CN110442855A (zh) * | 2019-04-10 | 2019-11-12 | 北京捷通华声科技股份有限公司 | 一种语音分析方法和系统 |
CN110503961A (zh) * | 2019-09-03 | 2019-11-26 | 北京字节跳动网络技术有限公司 | 音频识别方法、装置、存储介质及电子设备 |
CN111508506A (zh) * | 2020-04-03 | 2020-08-07 | 北京达佳互联信息技术有限公司 | 音频文件的原唱检测方法、装置、服务器及存储介质 |
Non-Patent Citations (2)
Title |
---|
Song recognition in music library based on cloud computing;Lei Du;IOP Conference Series: Materials Science and Engineering;第750卷;012167 * |
面向推荐系统的音乐特征抽取;张燕;唐振民;李燕萍;;计算机工程与应用(第05期);134-137 * |
Also Published As
Publication number | Publication date |
---|---|
CN112270929A (zh) | 2021-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang | Automatic singer identification | |
Lee et al. | Learning a joint embedding space of monophonic and mixed music signals for singing voice | |
Lee et al. | Revisiting singing voice detection: A quantitative review and the future outlook | |
Panda et al. | Using support vector machines for automatic mood tracking in audio music | |
Su et al. | Sparse modeling of magnitude and phase-derived spectra for playing technique classification | |
Tsunoo et al. | Music mood classification by rhythm and bass-line unit pattern analysis | |
Zhang et al. | System and method for automatic singer identification | |
CN112270929B (zh) | 一种歌曲识别的方法及装置 | |
Murthy et al. | Singer identification from smaller snippets of audio clips using acoustic features and DNNs | |
CN106970950B (zh) | 相似音频数据的查找方法及装置 | |
Nagavi et al. | Overview of automatic Indian music information recognition, classification and retrieval systems | |
Loni et al. | Robust singer identification of Indian playback singers | |
Sha et al. | Singing voice timbre classification of Chinese popular music | |
Nichols et al. | Automatically discovering talented musicians with acoustic analysis of youtube videos | |
Stein | Automatic detection of multiple, cascaded audio effects in guitar recordings | |
Kroher | The flamenco cante: Automatic characterization of flamenco singing by analyzing audio recordings | |
Mak et al. | Similarity Measures for Chinese Pop Music Based on Low-level Audio Signal Attributes. | |
Sarkar et al. | Singer based classification of song dataset using vocal signature inherent in signal | |
Kursa et al. | Multi-label ferns for efficient recognition of musical instruments in recordings | |
Pei et al. | Instrumentation analysis and identification of polyphonic music using beat-synchronous feature integration and fuzzy clustering | |
Sharma et al. | An efficient approach using LPFT for the karaoke formation of musical song | |
Chenchen et al. | Main melody extraction using the auditory scene analysis for the humming music retrieval | |
Yang | Structure analysis of beijing opera arias | |
Loni et al. | Singing voice identification using harmonic spectral envelope | |
Shelke et al. | An Effective Feature Calculation For Analysis & Classification of Indian Musical Instruments Using Timbre Measurement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |