CN111368129A - 基于深度神经网络的哼唱检索法 - Google Patents

基于深度神经网络的哼唱检索法 Download PDF

Info

Publication number
CN111368129A
CN111368129A CN201811588112.8A CN201811588112A CN111368129A CN 111368129 A CN111368129 A CN 111368129A CN 201811588112 A CN201811588112 A CN 201811588112A CN 111368129 A CN111368129 A CN 111368129A
Authority
CN
China
Prior art keywords
data
pitch
humming
neural network
deep neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811588112.8A
Other languages
English (en)
Inventor
王建荣
向坤
于健
喻梅
于瑞国
徐天一
赵满坤
高洁
薛寒钰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University Marine Technology Research Institute
Original Assignee
Tianjin University Marine Technology Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University Marine Technology Research Institute filed Critical Tianjin University Marine Technology Research Institute
Priority to CN201811588112.8A priority Critical patent/CN111368129A/zh
Publication of CN111368129A publication Critical patent/CN111368129A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

基于深度神经网络的哼唱检索法,使用深度神经网络‑动态时间规整方法,很好地解决诸如语言建模这样的问题,卷积神经网络应用于声学建模的自动语音识别,在辨识准确率和速度上有一定的提升;动态时间规整方法上介绍基于GPU的动态时间规划算法的提速以及在提速的条件下针对音高不同问题的解决方案。

Description

基于深度神经网络的哼唱检索法
技术领域
本发明属于数字信号处理领域,尤其涉及一种基于深度神经网络的哼唱检索法。
背景技术
目前以哼唱搜索为主的研究包括了:音高追踪(Pitch Tracking)和辨识算法两个部分。
1 音高追踪(Pitch Tracking)
计算音高的方法有很多,主要分为基于时域(Time Domain)和频域 (FrequencyDomain )两大类,其中时域的方法主要有 自相 关 函 数 法 (AutocorrelationFunction,ACF)、 归一化平方差函数法(Normalized Squared Difference Function,NSDF)、 短时平均幅度差函数法(Average Magnitude Difference Function,AMDF)、 简易反向滤波跟踪法(Simplified Inverse Filter Tracking,SIFT),而频域方法主要包括调和乘积谱方法(Harmonic Product Spectrum,HPS)和倒频谱方法(Cepstrum)。
2 辨识算法
动态时间规整(Dynamic Time Warping,DTW)算法
动态时间规整(Dynamic Time Warping,DTW)是一种以动态规划(DynamicProgramming)为基础,找出两个向量之间的最短路径的方法。该算法是在上世纪 60 年代由日本学者提出的,算法的提出是为了解决语音信号所具有的很强的随机性,也就是说,在不同的说话者进行发音时,由于其具有不同的发音习惯,且发音时周围的环境的不同,甚至说话者的心情的不同都会导致说话者的发音的持续时间的长短存在明显的伸缩的现象。因此在语音识别时,首先必须要进行的操作就是对语音信号进行时间规整。
一次正确的发音应该包含构成这个发音的全部的音素和正确的音素的连接次序。其中各音素的持续时间的长短与因素本身以及说话者的状态有关。为了提高辨识率,克服发同一个音而发音的时间长短不一的问题,需要采用对输入语音信号进行伸长或缩短直到与标准的语音模式的长度一致。这个完整的过程即称为时间规整。
截至目前为止,DTW 仍是最能够正确辨识的方法之一,但是其缺点也很明显,一是辨识速度很慢且对内存的需求很大,二是不能够有效的解决音调不同给辨识带来的问题。
目前的哼唱搜索技术使用动态时间规整算法作为首选算法,不能够有效的解决音调不同给辨识带来的问题,辨识速度很慢且对内存的需求很大。传统的动态时间规划算法具有很高的匹配率,但是其性能上的缺陷,和音调不同带来的阻碍,始终是动态时间规划算法的所需面临的问题。
发明内容
针对现有技术存在的问题,本发明基于深度神经网络的哼唱检索法,使用深度神经网络-动态时间规整方法,很好地解决诸如语言建模这样的问题,卷积神经网络应用于声学建模的自动语音识别,在辨识准确率和速度上有一定的提升。动态时间规整方法上介绍基于GPU的动态时间规划算法的提速以及在提速的条件下针对音高不同问题的解决方案。
基于深度神经网络的哼唱检索法,具体内容如下:
1 MIDI资料库音频资料解析
资料库是由 MIDI 格式的音乐组成的,其经过解析后所得到的信息是 [音符 1 的音高,音符 1 的音长,音符 2 的音高,音符 2 的音长,……,音符 N 的音高,音符 N 的音长],可以表示为[𝑛1, 𝑑1, 𝑛2, 𝑑2, … , 𝑛𝑁, 𝑑𝑁, ];如果两个相邻音符音高相同仍会视为两个独立的音符;
将音高音长的序列展开,再依据它们各自的音长加以展开,将音长数作为展开音高个数,采用将MIDI 资料完全展开的方式处理,以便于后期动态时间规整算法的比较辨别。
2 从用户哼唱歌曲中追踪高音并对深度神经网络进行训练
用户哼唱后所录制的 wav 档案,必须经由音高追踪系统计算出声音信号的音高,运用半音差(semitone)概念,半音差是音乐中音符表示的一种标准,其与频率有一定的转换关系,如公式(1-1)所示
Figure 249608DEST_PATH_IMAGE001
半音差是为了后期的辨识系统进行比对所采用的统一标准,如 60 就是钢琴键当中的中央 Do,也就是 C4;在钢琴键上,包含黑键,每一个相邻的键就是相差一个半音,其音高差距称为半音差;举例来说,若是[60,64,67]就是[Do, Mi,So],如图1所示,经由半音的组合,加上每个音符的音长不同,在两者之中加以变化,就可以组成各式各样的美妙的旋律;
用户的哼唱音频文件都是时长 8 秒的单声道音频,在放入深度神经网络中进行处理之前,需要做以下预处理:
首先,对音频数据进行以 0.032 秒为单位的无重叠的应用汉明窗(hanning)的加窗分帧,这样 8 秒的哼唱音频即会得到 250 个采样窗数据;
其次,把得到的每一帧数据分别进行快速傅里叶变换(FastFouriTransform,FFT),这样就得到了这一帧频谱(Spectrum),进而做对数运算以得到其对数谱(LogarithmicSpectrum),因为以 0.032 秒为窗长,故而此处得到的数据是在 0 到2000 赫兹范围内以31.25 赫兹为单位进行步进的 65 个采样数据;
再次,对得到的每帧的对数谱的 65 个数据进行归一化,将其归一到[-1,1]区间内以便于后期作为深度神经网络的输入数据;
最后,在按照以上方法操作后得到 250 组数据,为了降低每一组采样的不确定性带来的错误,将每相邻的5 组数据进行整合,设五组数据分别为 [𝑎1, … , 𝑎65],[𝑏1, … ,𝑏65],[𝑐1, … , 𝑐65],[𝑑1, … , 𝑑65],[𝑒1, … , 𝑒65],则按照对应位置穿插的方式进行整合后的数据为[𝑎1, 𝑏1, 𝑐1, 𝑑1, 𝑒1 … , 𝑎65, 𝑏65, 𝑐65, 𝑑65, 𝑒65],这样就获得了 246 组325 维的数据;
针对每一帧的数据,获了通过人工的方式进行标注的音高,音高的分布范围为[35,85],即 51 个音高,再加上代表空拍的 0,可以获得 52 个音高类别,对应每一组数据,都以[𝑐1, … , 𝑐65]组代表的音高作为目标音高,这样每一首 8 秒的哼唱歌曲就具有了 246个目标音高;
将获得的每组 325 维的哼唱数据作为深度神经网络的输入,在深度神经网络进行训练时,用对应的音高作为深度神经网络的目标输出;成功训练后使用时仅需将通过以上过程获取的哼唱数据输入深度神经网络中即可获得这段数据所代表的音高序列;
对于采用深度神经网络计算出的音高序列,为了得到更加合理地结果,需要对数据进行平滑处理来去掉奇异点和突变点,具体做法是将空拍紧邻的非空拍的音的改为另一侧的音,若一个非空拍的音的两侧都是空拍则将该音也改为空拍;该处理的理论依据是当人发音和发音结束时都会存在一些唇的摩擦或其他动作发出声音影响音高的判断,这样按照上面的方法可以去除掉这些错误判断的音;之后再考察是否存在突然变高或变低的音,将其改为两侧音高的均值;该处理的理论依据是由于处理每个点都是 0.032 秒的,不可能在哼唱时出现突变,所以出现突变只能是追踪错误造成的,故而将其改为两侧的均值更合理。
3对音频信号的休止符处理
将休止符延长为前一个音的音高,这么做不仅可以更明显的看出音高的走势之外,还可以将该音符的长度呈现的更为完整;
对于得到的最终的哼唱音高序列,从第一个非 0 值为起始,取前 200 个音高值作为序列,这样做的原因是:考虑人的反应时间,故而将前面的第一个非空拍作为整段音高序列的开始;取前 200 个音高是为了将所有哼唱序列都变为同一长度,便于后面辨识系统的识别匹配;对于不足 200 个音高的序列,将最后的一个音高值复制补充至达到 200 个为止;对于未能识别到音高的序列,则将其改为由 200 个 0 值组成的音高序列。
4 音频信号导入辨识系统进行检索
检索过程中采用基于GPU加速的动态时间规整算法,检索完毕之后系统将会回传前十名可能的歌曲,也就是动态时间规整方法计算的最小欧几里得距离差的前十个最小的歌曲匹配结果;
基于GPU加速的动态时间规整算法,是将获得的音高资料库的数据存入到全局存储器之中,之后将要比较的一个歌曲音高资料和一条哼唱资料存储到同一个区块内,且每个区块含有多个线程;考虑到动态时间规整算法的特性,匹配可以从歌曲资料的任意位置开始或结束,且对哼唱资料进行完整匹配,故采用一个区块匹配比较一个歌曲音高资料和一条哼唱资料,之后的动态时间规整列表由于其动态性和状态转移方程的特点,可以并行的由不同的线程工作完成,即同一行的数据可以同时地进行计算和填充;在计算的过程中使用共享存储器作为同一区块内的不同线程间通讯的途径;在 GPU 运算的同时,使用 CPU 来对不同的哼唱资料进行任务分配和调度;在每个哼唱资料计算完动态时间规整距离之后,亦采用 CPU 对得到的同一哼唱资料对不同歌曲音高资料的距离进行排序并获得前几个匹配歌曲列表。
附图说明
图1是半音差和钢琴键的关系示意图;
图2是DTW示意图;
图3是系统架构示意图。
具体实施方式
下面结合附图和具体实施方式对发明方案做进一步说明。
1. 音频资料库选择
选择张智星教授带领的 MIR 团队其建立的 MIDI标准数据库。
2. 深度学习算法训练方式
训练方法采用了极限学习机。深度神经网络进行学习时所使用的数据,是将 4431 首哼唱歌曲提取的 1090026 条对应音高标记好的特征序列进行按照音高分类后,每个分类可有重复 的提供 2000 条特征序列,再经过顺序随机后,整体构成的,这样 52 个音高类就 可以获得共计 104000 条特征序列作为学习的样本集。 所获得的哼唱数据分为 2003、2004a、2004b、2005、2006a、2006b、2007、 2008、2009,九个数据集。每个数据集的哼唱歌曲个数为 665 首、310 首、515 首、549 首、79 首、631 首、454 首、399 首、829 首,每个数据集的哼唱歌曲的 音高总个数为 163590 个、76260 个、126690 个、135054 个、19434 个、155226 个、111684 个、98154 个、203934 个,共计 4431 首,1090026 个音高。每首哼 唱歌曲间相互独立完全无关。 极限学习机的结构为输入层为 325 个神经元,隐藏层为 6500个以 sigmoid 函数为激活函数的神经元,输出层为 52 个神经元。
3.动态时间规整算法
选择动态时间规整(Dynamic Time Warping,DTW)算法作为基础,其在哼唱检索方面的应用,也就是将使用者哼唱的歌曲当成横轴的 x 轴,资料库里的 MIDI 当成纵轴的 y 轴,用动态规划的方法计算其最短距离,两向量的距离计算公式如公式(2-1)
Figure 582501DEST_PATH_IMAGE002
其中 i 是 x 轴的角标,j 是 y 轴的角标,采用的是允许跃点的 DTW,因此有 i-2 或是 j-2 的出现,这样就具有了自动伸缩的效果。其中的距离的算法则是求两者间的欧几里得距离,详情如下图2所示:
图中 vec1 为使用者哼唱的歌曲,vec2 为资料库中的答案。可以发现使用者哼唱的速度比资料库中 MIDI 的速度慢了两倍,因此最短路径在 x 轴是两点对应到 y 轴的一点。此图是采用头对头、尾不对尾的方式比对的。
4. 硬件及软件设施
操作系统: Windows Server 2012 R2 Datacenter,x64
运行环境: Python 2.7.6 amd64。

Claims (1)

1.基于深度神经网络的哼唱检索法,其特征在于:具体内容如下:
1 MIDI资料库音频资料解析
资料库是由 MIDI 格式的音乐组成的,其经过解析后所得到的信息是 [音符 1 的音高,音符 1 的音长,音符 2 的音高,音符 2 的音长,……,音符 N 的音高,音符 N 的音长],可以表示为[𝑛1, 𝑑1, 𝑛2, 𝑑2, … , 𝑛𝑁, 𝑑𝑁, ];如果两个相邻音符音高相同仍会视为两个独立的音符;
将音高音长的序列展开,再依据它们各自的音长加以展开,将音长数作为展开音高个数,采用将MIDI 资料完全展开的方式处理,以便于后期动态时间规整算法的比较辨别;
2 从用户哼唱歌曲中追踪高音并对深度神经网络进行训练
用户哼唱后所录制的 wav 档案,必须经由音高追踪系统计算出声音信号的音高,运用半音差(semitone)概念,半音差是音乐中音符表示的一种标准,其与频率有一定的转换关系,如公式(1-1)所示
Figure 378288DEST_PATH_IMAGE001
半音差是为了后期的辨识系统进行比对所采用的统一标准,如 60 就是钢琴键当中的中央 Do,也就是 C4;在钢琴键上,包含黑键,每一个相邻的键就是相差一个半音,其音高差距称为半音差;举例来说,若是[60,64,67]就是[Do, Mi,So],经由半音的组合,加上每个音符的音长不同,在两者之中加以变化,就可以组成各式各样的美妙的旋律;
用户的哼唱音频文件都是时长 8 秒的单声道音频,在放入深度神经网络中进行处理之前,需要做以下预处理:
首先,对音频数据进行以 0.032 秒为单位的无重叠的应用汉明窗(hanning)的加窗分帧,这样 8 秒的哼唱音频即会得到 250 个采样窗数据;
其次,把得到的每一帧数据分别进行快速傅里叶变换(FastFouriTransform,FFT),这样就得到了这一帧频谱(Spectrum),进而做对数运算以得到其对数谱(LogarithmicSpectrum),因为以 0.032 秒为窗长,故而此处得到的数据是在 0 到2000 赫兹范围内以31.25 赫兹为单位进行步进的 65 个采样数据;
再次,对得到的每帧的对数谱的 65 个数据进行归一化,将其归一到[-1,1]区间内以便于后期作为深度神经网络的输入数据;
最后,在按照以上方法操作后得到 250 组数据,为了降低每一组采样的不确定性带来的错误,将每相邻的5 组数据进行整合,设五组数据分别为 [𝑎1, … , 𝑎65],[𝑏1, … ,𝑏65],[𝑐1, … , 𝑐65],[𝑑1, … , 𝑑65],[𝑒1, … , 𝑒65],则按照对应位置穿插的方式进行整合后的数据为[𝑎1, 𝑏1, 𝑐1, 𝑑1, 𝑒1 … , 𝑎65, 𝑏65, 𝑐65, 𝑑65, 𝑒65],这样就获得了 246 组325 维的数据;
针对每一帧的数据,获了通过人工的方式进行标注的音高,音高的分布范围为[35,85],即 51 个音高,再加上代表空拍的 0,可以获得 52 个音高类别,对应每一组数据,都以[𝑐1, … , 𝑐65]组代表的音高作为目标音高,这样每一首 8 秒的哼唱歌曲就具有了 246个目标音高;
将获得的每组 325 维的哼唱数据作为深度神经网络的输入,在深度神经网络进行训练时,用对应的音高作为深度神经网络的目标输出;成功训练后使用时仅需将通过以上过程获取的哼唱数据输入深度神经网络中即可获得这段数据所代表的音高序列;
对于采用深度神经网络计算出的音高序列,为了得到更加合理地结果,需要对数据进行平滑处理来去掉奇异点和突变点,具体做法是将空拍紧邻的非空拍的音的改为另一侧的音,若一个非空拍的音的两侧都是空拍则将该音也改为空拍;该处理的理论依据是当人发音和发音结束时都会存在一些唇的摩擦或其他动作发出声音影响音高的判断,这样按照上面的方法可以去除掉这些错误判断的音;之后再考察是否存在突然变高或变低的音,将其改为两侧音高的均值;该处理的理论依据是由于处理每个点都是 0.032 秒的,不可能在哼唱时出现突变,所以出现突变只能是追踪错误造成的,故而将其改为两侧的均值更合理;
3对音频信号的休止符处理
将休止符延长为前一个音的音高,这么做不仅可以更明显的看出音高的走势之外,还可以将该音符的长度呈现的更为完整;
对于得到的最终的哼唱音高序列,从第一个非 0 值为起始,取前 200 个音高值作为序列,这样做的原因是:考虑人的反应时间,故而将前面的第一个非空拍作为整段音高序列的开始;取前 200 个音高是为了将所有哼唱序列都变为同一长度,便于后面辨识系统的识别匹配;对于不足 200 个音高的序列,将最后的一个音高值复制补充至达到 200 个为止;对于未能识别到音高的序列,则将其改为由 200 个 0 值组成的音高序列;
4 音频信号导入辨识系统进行检索
检索过程中采用基于GPU加速的动态时间规整算法,检索完毕之后系统将会回传前十名可能的歌曲,也就是动态时间规整方法计算的最小欧几里得距离差的前十个最小的歌曲匹配结果;
基于GPU加速的动态时间规整算法,是将获得的音高资料库的数据存入到全局存储器之中,之后将要比较的一个歌曲音高资料和一条哼唱资料存储到同一个区块内,且每个区块含有多个线程;考虑到动态时间规整算法的特性,匹配可以从歌曲资料的任意位置开始或结束,且对哼唱资料进行完整匹配,故采用一个区块匹配比较一个歌曲音高资料和一条哼唱资料,之后的动态时间规整列表由于其动态性和状态转移方程的特点,可以并行的由不同的线程工作完成,即同一行的数据可以同时地进行计算和填充;在计算的过程中使用共享存储器作为同一区块内的不同线程间通讯的途径;在 GPU 运算的同时,使用 CPU 来对不同的哼唱资料进行任务分配和调度;在每个哼唱资料计算完动态时间规整距离之后,亦采用 CPU 对得到的同一哼唱资料对不同歌曲音高资料的距离进行排序并获得前几个匹配歌曲列表。
CN201811588112.8A 2018-12-25 2018-12-25 基于深度神经网络的哼唱检索法 Pending CN111368129A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811588112.8A CN111368129A (zh) 2018-12-25 2018-12-25 基于深度神经网络的哼唱检索法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811588112.8A CN111368129A (zh) 2018-12-25 2018-12-25 基于深度神经网络的哼唱检索法

Publications (1)

Publication Number Publication Date
CN111368129A true CN111368129A (zh) 2020-07-03

Family

ID=71207829

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811588112.8A Pending CN111368129A (zh) 2018-12-25 2018-12-25 基于深度神经网络的哼唱检索法

Country Status (1)

Country Link
CN (1) CN111368129A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114781466A (zh) * 2022-06-21 2022-07-22 西安因联信息科技有限公司 基于旋转机械振动信号谐波基频的故障诊断方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559309A (zh) * 2013-11-19 2014-02-05 北京航空航天大学 一种基于gpu加速的音乐检索与推荐系统
KR101395135B1 (ko) * 2013-04-29 2014-05-15 주식회사 뮤즈넷 음악검색방법
CN107256710A (zh) * 2017-08-01 2017-10-17 中国农业大学 一种基于动态时间伸缩算法的哼唱旋律识别方法
CN107978323A (zh) * 2017-12-01 2018-05-01 腾讯科技(深圳)有限公司 音频识别方法、装置及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101395135B1 (ko) * 2013-04-29 2014-05-15 주식회사 뮤즈넷 음악검색방법
CN103559309A (zh) * 2013-11-19 2014-02-05 北京航空航天大学 一种基于gpu加速的音乐检索与推荐系统
CN107256710A (zh) * 2017-08-01 2017-10-17 中国农业大学 一种基于动态时间伸缩算法的哼唱旋律识别方法
CN107978323A (zh) * 2017-12-01 2018-05-01 腾讯科技(深圳)有限公司 音频识别方法、装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘志强;: "基于DTW的哼唱识别系统的研制", 信息与电脑(理论版), no. 12, pages 258 - 26 *
黄孝平: "当代机器深度学习方法与应用研究", 电子科技大学出版社, pages: 246 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114781466A (zh) * 2022-06-21 2022-07-22 西安因联信息科技有限公司 基于旋转机械振动信号谐波基频的故障诊断方法及系统
CN114781466B (zh) * 2022-06-21 2022-09-27 西安因联信息科技有限公司 基于旋转机械振动信号谐波基频的故障诊断方法及系统

Similar Documents

Publication Publication Date Title
Benetos et al. Automatic music transcription: An overview
Basaran et al. Main melody extraction with source-filter NMF and CRNN
Mesaros et al. Automatic recognition of lyrics in singing
CN110600055B (zh) 一种使用旋律提取与语音合成技术的歌声分离方法
Sharma et al. NHSS: A speech and singing parallel database
WO2005066927A1 (ja) 多重音信号解析方法
Fan et al. Singing voice separation and pitch extraction from monaural polyphonic audio music via DNN and adaptive pitch tracking
Oudre et al. Chord recognition by fitting rescaled chroma vectors to chord templates
JP2023081946A (ja) 学習装置、自動採譜装置、学習方法、自動採譜方法及びプログラム
US20170243571A1 (en) Context-dependent piano music transcription with convolutional sparse coding
Yu et al. Predominant instrument recognition based on deep neural network with auxiliary classification
CN112992109A (zh) 辅助歌唱系统、辅助歌唱方法及其非瞬时计算机可读取记录媒体
Lerch Audio content analysis
Kuriakose et al. Akshara transcription of mrudangam strokes in carnatic music
Sarkar et al. Raga identification from Hindustani classical music signal using compositional properties
Holzapfel et al. Similarity methods for computational ethnomusicology
Pratama et al. Human vocal type classification using MFCC and convolutional neural network
Jeyalakshmi et al. HMM and K-NN based automatic musical instrument recognition
Gajjar et al. Computational musicology for raga analysis in Indian classical music: a critical review
CN111368129A (zh) 基于深度神经网络的哼唱检索法
Amarasinghe et al. Supervised learning approach for singer identification in sri lankan music
Dong et al. Vocal Pitch Extraction in Polyphonic Music Using Convolutional Residual Network.
Kitahara et al. Musical instrument recognizer" instrogram" and its application to music retrieval based on instrumentation similarity
Jha et al. Assessing vowel quality for singing evaluation
Shih et al. A statistical multidimensional humming transcription using phone level hidden Markov models for query by humming systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination