CN111368129A

CN111368129A - 基于深度神经网络的哼唱检索法

Info

Publication number: CN111368129A
Application number: CN201811588112.8A
Authority: CN
Inventors: 王建荣; 向坤; 于健; 喻梅; 于瑞国; 徐天一; 赵满坤; 高洁; 薛寒钰
Original assignee: Tianjin University Marine Technology Research Institute
Current assignee: Tianjin University Marine Technology Research Institute
Priority date: 2018-12-25
Filing date: 2018-12-25
Publication date: 2020-07-03

Abstract

基于深度神经网络的哼唱检索法，使用深度神经网络‑动态时间规整方法，很好地解决诸如语言建模这样的问题，卷积神经网络应用于声学建模的自动语音识别，在辨识准确率和速度上有一定的提升；动态时间规整方法上介绍基于GPU的动态时间规划算法的提速以及在提速的条件下针对音高不同问题的解决方案。

Description

基于深度神经网络的哼唱检索法

技术领域

本发明属于数字信号处理领域，尤其涉及一种基于深度神经网络的哼唱检索法。

背景技术

目前以哼唱搜索为主的研究包括了：音高追踪（Pitch Tracking）和辨识算法两个部分。

1 音高追踪（Pitch Tracking）

计算音高的方法有很多，主要分为基于时域（Time Domain）和频域（FrequencyDomain ）两大类，其中时域的方法主要有自相关函数法（AutocorrelationFunction，ACF）、归一化平方差函数法（Normalized Squared Difference Function，NSDF）、短时平均幅度差函数法（Average Magnitude Difference Function，AMDF）、简易反向滤波跟踪法（Simplified Inverse Filter Tracking，SIFT），而频域方法主要包括调和乘积谱方法（Harmonic Product Spectrum，HPS）和倒频谱方法（Cepstrum）。

2 辨识算法

动态时间规整（Dynamic Time Warping，DTW）算法

动态时间规整（Dynamic Time Warping，DTW）是一种以动态规划（DynamicProgramming）为基础，找出两个向量之间的最短路径的方法。该算法是在上世纪 60 年代由日本学者提出的，算法的提出是为了解决语音信号所具有的很强的随机性，也就是说，在不同的说话者进行发音时，由于其具有不同的发音习惯，且发音时周围的环境的不同，甚至说话者的心情的不同都会导致说话者的发音的持续时间的长短存在明显的伸缩的现象。因此在语音识别时，首先必须要进行的操作就是对语音信号进行时间规整。

一次正确的发音应该包含构成这个发音的全部的音素和正确的音素的连接次序。其中各音素的持续时间的长短与因素本身以及说话者的状态有关。为了提高辨识率，克服发同一个音而发音的时间长短不一的问题，需要采用对输入语音信号进行伸长或缩短直到与标准的语音模式的长度一致。这个完整的过程即称为时间规整。

截至目前为止，DTW 仍是最能够正确辨识的方法之一，但是其缺点也很明显，一是辨识速度很慢且对内存的需求很大，二是不能够有效的解决音调不同给辨识带来的问题。

目前的哼唱搜索技术使用动态时间规整算法作为首选算法，不能够有效的解决音调不同给辨识带来的问题，辨识速度很慢且对内存的需求很大。传统的动态时间规划算法具有很高的匹配率，但是其性能上的缺陷，和音调不同带来的阻碍，始终是动态时间规划算法的所需面临的问题。

发明内容

针对现有技术存在的问题，本发明基于深度神经网络的哼唱检索法，使用深度神经网络-动态时间规整方法，很好地解决诸如语言建模这样的问题，卷积神经网络应用于声学建模的自动语音识别，在辨识准确率和速度上有一定的提升。动态时间规整方法上介绍基于GPU的动态时间规划算法的提速以及在提速的条件下针对音高不同问题的解决方案。

基于深度神经网络的哼唱检索法，具体内容如下：

1 MIDI资料库音频资料解析

资料库是由 MIDI 格式的音乐组成的，其经过解析后所得到的信息是 [音符 1 的音高，音符 1 的音长，音符 2 的音高，音符 2 的音长，……，音符 N 的音高，音符 N 的音长]，可以表示为[𝑛₁, 𝑑₁, 𝑛₂, 𝑑₂, … , 𝑛_𝑁, 𝑑_𝑁, ]；如果两个相邻音符音高相同仍会视为两个独立的音符；

将音高音长的序列展开，再依据它们各自的音长加以展开,将音长数作为展开音高个数，采用将MIDI 资料完全展开的方式处理，以便于后期动态时间规整算法的比较辨别。

2 从用户哼唱歌曲中追踪高音并对深度神经网络进行训练

用户哼唱后所录制的 wav 档案，必须经由音高追踪系统计算出声音信号的音高，运用半音差（semitone）概念，半音差是音乐中音符表示的一种标准，其与频率有一定的转换关系，如公式（1-1）所示

半音差是为了后期的辨识系统进行比对所采用的统一标准，如 60 就是钢琴键当中的中央 Do，也就是 C4；在钢琴键上，包含黑键，每一个相邻的键就是相差一个半音，其音高差距称为半音差；举例来说，若是[60，64，67]就是[Do， Mi，So]，如图1所示，经由半音的组合，加上每个音符的音长不同，在两者之中加以变化，就可以组成各式各样的美妙的旋律；

用户的哼唱音频文件都是时长 8 秒的单声道音频，在放入深度神经网络中进行处理之前，需要做以下预处理：

首先，对音频数据进行以 0.032 秒为单位的无重叠的应用汉明窗(hanning)的加窗分帧，这样 8 秒的哼唱音频即会得到 250 个采样窗数据；

其次，把得到的每一帧数据分别进行快速傅里叶变换（FastFouriTransform，FFT），这样就得到了这一帧频谱（Spectrum），进而做对数运算以得到其对数谱（LogarithmicSpectrum），因为以 0.032 秒为窗长，故而此处得到的数据是在 0 到2000 赫兹范围内以31.25 赫兹为单位进行步进的 65 个采样数据；

再次，对得到的每帧的对数谱的 65 个数据进行归一化，将其归一到[-1,1]区间内以便于后期作为深度神经网络的输入数据；

最后，在按照以上方法操作后得到 250 组数据，为了降低每一组采样的不确定性带来的错误，将每相邻的5 组数据进行整合，设五组数据分别为 [𝑎₁, … , 𝑎₆₅]，[𝑏₁, … ,𝑏₆₅]，[𝑐₁, … , 𝑐₆₅]，[𝑑₁, … , 𝑑₆₅]，[𝑒₁, … , 𝑒₆₅]，则按照对应位置穿插的方式进行整合后的数据为[𝑎₁, 𝑏₁, 𝑐₁, 𝑑₁, 𝑒₁… , 𝑎₆₅, 𝑏₆₅, 𝑐₆₅, 𝑑₆₅, 𝑒₆₅]，这样就获得了 246 组325 维的数据；

针对每一帧的数据，获了通过人工的方式进行标注的音高，音高的分布范围为[35,85]，即 51 个音高，再加上代表空拍的 0，可以获得 52 个音高类别，对应每一组数据，都以[𝑐₁, … , 𝑐₆₅]组代表的音高作为目标音高，这样每一首 8 秒的哼唱歌曲就具有了 246个目标音高；

将获得的每组 325 维的哼唱数据作为深度神经网络的输入，在深度神经网络进行训练时，用对应的音高作为深度神经网络的目标输出；成功训练后使用时仅需将通过以上过程获取的哼唱数据输入深度神经网络中即可获得这段数据所代表的音高序列；

对于采用深度神经网络计算出的音高序列，为了得到更加合理地结果，需要对数据进行平滑处理来去掉奇异点和突变点，具体做法是将空拍紧邻的非空拍的音的改为另一侧的音，若一个非空拍的音的两侧都是空拍则将该音也改为空拍；该处理的理论依据是当人发音和发音结束时都会存在一些唇的摩擦或其他动作发出声音影响音高的判断，这样按照上面的方法可以去除掉这些错误判断的音；之后再考察是否存在突然变高或变低的音，将其改为两侧音高的均值；该处理的理论依据是由于处理每个点都是 0.032 秒的，不可能在哼唱时出现突变，所以出现突变只能是追踪错误造成的，故而将其改为两侧的均值更合理。

3对音频信号的休止符处理

将休止符延长为前一个音的音高，这么做不仅可以更明显的看出音高的走势之外，还可以将该音符的长度呈现的更为完整；

对于得到的最终的哼唱音高序列，从第一个非 0 值为起始，取前 200 个音高值作为序列，这样做的原因是：考虑人的反应时间，故而将前面的第一个非空拍作为整段音高序列的开始；取前 200 个音高是为了将所有哼唱序列都变为同一长度，便于后面辨识系统的识别匹配；对于不足 200 个音高的序列，将最后的一个音高值复制补充至达到 200 个为止；对于未能识别到音高的序列，则将其改为由 200 个 0 值组成的音高序列。

4 音频信号导入辨识系统进行检索

检索过程中采用基于GPU加速的动态时间规整算法，检索完毕之后系统将会回传前十名可能的歌曲，也就是动态时间规整方法计算的最小欧几里得距离差的前十个最小的歌曲匹配结果；

基于GPU加速的动态时间规整算法，是将获得的音高资料库的数据存入到全局存储器之中，之后将要比较的一个歌曲音高资料和一条哼唱资料存储到同一个区块内，且每个区块含有多个线程；考虑到动态时间规整算法的特性，匹配可以从歌曲资料的任意位置开始或结束，且对哼唱资料进行完整匹配，故采用一个区块匹配比较一个歌曲音高资料和一条哼唱资料，之后的动态时间规整列表由于其动态性和状态转移方程的特点，可以并行的由不同的线程工作完成，即同一行的数据可以同时地进行计算和填充；在计算的过程中使用共享存储器作为同一区块内的不同线程间通讯的途径；在 GPU 运算的同时，使用 CPU 来对不同的哼唱资料进行任务分配和调度；在每个哼唱资料计算完动态时间规整距离之后，亦采用 CPU 对得到的同一哼唱资料对不同歌曲音高资料的距离进行排序并获得前几个匹配歌曲列表。

附图说明

图1是半音差和钢琴键的关系示意图；

图2是DTW示意图；

图3是系统架构示意图。

具体实施方式

下面结合附图和具体实施方式对发明方案做进一步说明。

1. 音频资料库选择

选择张智星教授带领的 MIR 团队其建立的 MIDI标准数据库。

2. 深度学习算法训练方式

训练方法采用了极限学习机。深度神经网络进行学习时所使用的数据，是将 4431 首哼唱歌曲提取的 1090026 条对应音高标记好的特征序列进行按照音高分类后，每个分类可有重复的提供 2000 条特征序列，再经过顺序随机后，整体构成的，这样 52 个音高类就可以获得共计 104000 条特征序列作为学习的样本集。所获得的哼唱数据分为 2003、2004a、2004b、2005、2006a、2006b、2007、 2008、2009，九个数据集。每个数据集的哼唱歌曲个数为 665 首、310 首、515 首、549 首、79 首、631 首、454 首、399 首、829 首，每个数据集的哼唱歌曲的音高总个数为 163590 个、76260 个、126690 个、135054 个、19434 个、155226 个、111684 个、98154 个、203934 个，共计 4431 首，1090026 个音高。每首哼唱歌曲间相互独立完全无关。极限学习机的结构为输入层为 325 个神经元，隐藏层为 6500个以 sigmoid 函数为激活函数的神经元，输出层为 52 个神经元。

3.动态时间规整算法

选择动态时间规整（Dynamic Time Warping，DTW）算法作为基础，其在哼唱检索方面的应用，也就是将使用者哼唱的歌曲当成横轴的 x 轴，资料库里的 MIDI 当成纵轴的 y 轴，用动态规划的方法计算其最短距离，两向量的距离计算公式如公式（2-1）

其中 i 是 x 轴的角标，j 是 y 轴的角标，采用的是允许跃点的 DTW，因此有 i-2 或是 j-2 的出现，这样就具有了自动伸缩的效果。其中的距离的算法则是求两者间的欧几里得距离，详情如下图2所示：

图中 vec1 为使用者哼唱的歌曲，vec2 为资料库中的答案。可以发现使用者哼唱的速度比资料库中 MIDI 的速度慢了两倍，因此最短路径在 x 轴是两点对应到 y 轴的一点。此图是采用头对头、尾不对尾的方式比对的。

4. 硬件及软件设施

操作系统： Windows Server 2012 R2 Datacenter，x64

运行环境： Python 2.7.6 amd64。

Claims

1.基于深度神经网络的哼唱检索法，其特征在于：具体内容如下：

1 MIDI资料库音频资料解析

将音高音长的序列展开，再依据它们各自的音长加以展开,将音长数作为展开音高个数，采用将MIDI 资料完全展开的方式处理，以便于后期动态时间规整算法的比较辨别；

2 从用户哼唱歌曲中追踪高音并对深度神经网络进行训练

半音差是为了后期的辨识系统进行比对所采用的统一标准，如 60 就是钢琴键当中的中央 Do，也就是 C4；在钢琴键上，包含黑键，每一个相邻的键就是相差一个半音，其音高差距称为半音差；举例来说，若是[60，64，67]就是[Do， Mi，So]，经由半音的组合，加上每个音符的音长不同，在两者之中加以变化，就可以组成各式各样的美妙的旋律；

对于采用深度神经网络计算出的音高序列，为了得到更加合理地结果，需要对数据进行平滑处理来去掉奇异点和突变点，具体做法是将空拍紧邻的非空拍的音的改为另一侧的音，若一个非空拍的音的两侧都是空拍则将该音也改为空拍；该处理的理论依据是当人发音和发音结束时都会存在一些唇的摩擦或其他动作发出声音影响音高的判断，这样按照上面的方法可以去除掉这些错误判断的音；之后再考察是否存在突然变高或变低的音，将其改为两侧音高的均值；该处理的理论依据是由于处理每个点都是 0.032 秒的，不可能在哼唱时出现突变，所以出现突变只能是追踪错误造成的，故而将其改为两侧的均值更合理；

3对音频信号的休止符处理

对于得到的最终的哼唱音高序列，从第一个非 0 值为起始，取前 200 个音高值作为序列，这样做的原因是：考虑人的反应时间，故而将前面的第一个非空拍作为整段音高序列的开始；取前 200 个音高是为了将所有哼唱序列都变为同一长度，便于后面辨识系统的识别匹配；对于不足 200 个音高的序列，将最后的一个音高值复制补充至达到 200 个为止；对于未能识别到音高的序列，则将其改为由 200 个 0 值组成的音高序列；

4 音频信号导入辨识系统进行检索