CN111680187A

CN111680187A - 乐谱跟随路径的确定方法、装置、电子设备及存储介质

Info

Publication number: CN111680187A
Application number: CN202010455442.0A
Authority: CN
Inventors: 蒋慧军; 姜凯英; 韩宝强; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2020-09-18
Anticipated expiration: 2040-05-26
Also published as: WO2021114815A1; CN111680187B

Abstract

本申请涉及数据处理技术领域，尤其涉及一种乐谱跟随路径的确定方法、装置、电子设备及存储介质。其中，乐谱跟随路径的确定方法，包括：获取当前正在演奏的演奏音频及对应的乐谱音频；确定所述演奏音频的音符起始点，根据所述音符起始点及恒Q变换确定演奏音频特征向量；获取所述乐谱音频的泛音列分布，按照预设规则确定乐谱音频的泛音列向量；根据所述演奏音频特征向量及所述乐谱音频的特征泛音列向量确定演奏音频与乐谱音频之间的相似度矩阵；根据所述相似度矩阵确定所述演奏音频对所述乐谱音频的跟随路径。根据本申请提供的方案，实现对于乐谱音频的准确跟随。

Description

乐谱跟随路径的确定方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种乐谱跟随路径的确定方法、装置、电子设备及存储介质。

背景技术

乐谱跟随(Score Following)是确定演奏者所演奏的乐曲在乐谱上的位置，乐谱跟随是计算机识谱的重要组成部分，能够实现计算机收听现场演奏音乐，具备跟踪演奏音符在乐谱上位置的功能，利用乐谱跟随获得演奏者所演奏乐曲的跟随结果，利用跟随结果获知演奏者在演奏过程中出现的问题，如：节奏快/慢、节拍不稳、出现错音、出现跳音等，根据该跟随结果可以对演奏者的演奏水平进行测评，演奏者还可以根据测评信息调整乐曲的演奏，实现对乐曲的有效学习。

现有技术中，乐谱跟随只能做到简单乐谱的跟随，对复杂乐谱的跟随准确性较低，一旦演奏者在演奏过程中变换演奏节奏或演奏中出现错乱，则无法继续进行乐谱跟随或跟随效果不佳。

发明内容

本申请提供一种乐谱跟随路径的确定方法、装置、电子设备及存储介质，其主要目的在于实现演奏音频对乐谱音频的准确跟随。

本申请实施例首先提供了一种乐谱跟随路径的确定方法，包括：

获取当前正在演奏的演奏音频及对应的乐谱音频；

确定所述演奏音频的音符起始点，根据所述音符起始点及恒Q变换确定演奏音频特征向量；

获取所述乐谱音频的泛音列分布，按照预设规则确定乐谱音频的泛音列向量；

根据所述演奏音频特征向量及所述乐谱音频的泛音列向量确定演奏音频与乐谱音频之间的相似度矩阵；

根据所述相似度矩阵确定所述演奏音频对所述乐谱音频的跟随路径。

可选地，所述确定所述演奏音频的音符起始点的步骤，包括：

根据预设处理时长切分所述演奏音频得到多个音频片段，相邻所述音频片段存在时间上的重叠；

基于相邻音频片段的重叠时间形成目标窗口；

利用神经网络确定所述目标窗口中音符起始点的触发概率，根据所述触发概率确定音符起始点。

可选地，所述根据演奏音频的音符起始点及恒Q变换确定演奏音频特征向量的步骤，包括：

利用恒Q变换分别获得所述音符起始点的前一音符的特征向量及所述音符起始点的后一音符的特征向量；

根据所述前一音符的特征向量及后一音符的特征向量确定两个音符的特征向量差值；

基于所述特征向量差值及预设音符比对函数确定演奏音频特征向量。

可选地，所述利用恒Q变换分别获得所述音符起始点的前一音符的特征向量及所述音符起始点的后一音符的特征向量的步骤，包括：

针对任一时间帧中时域信号及其窗函数进行恒Q变换，依次获得该时间帧中所有半音频率分量；

保留所述半音频率分量在频率方向上的局部最大值，所述局部最大值的保留数量根据所述演奏音频同时击发的和弦数量确定；

根据所述保留数量的局部最大值确定音符起始点的前一音符的特征向量及后一音符的特征向量。

可选地，根据所述演奏音频特征向量及所述乐谱音频的泛音列向量确定演奏音频与乐谱音频之间的相似度矩阵的步骤，包括：

计算所述演奏音频特征向量与按照预设规则确定的多个所述泛音列向量的皮尔逊相关系数；

针对每个音符起始点获得最大皮尔逊相关系数，获得由多个音符起始点的最大皮尔逊相关系数组成的相似度矩阵。

可选地，所述根据所述相似度矩阵确定所述演奏音频对所述乐谱音频的跟随路径的步骤，包括：

根据所述相似度矩阵确定动态规划跟随路径的状态转移方程，确定所述状态转移方程中最长的DP路径为跟随路径；其中，所述状态转移方程如下：

其中，DP(i,j)为从i到j的路径长度，η(i,j)为局部速度因子，S(i,j)为相似度矩阵。

可选地，所述根据所述相似度矩阵确定所述演奏音频对所述乐谱音频的跟随路径之后，还包括：

检测到所述演奏音频中的异常点；

获得演奏音频中与乐谱音频连续匹配成功的音符构成的最长音符序列；

对所述最长音符序列进行最小二乘法估计，获得所述异常点导致的音符偏移量，利用所述音符偏移量调整所述跟随路径。

获取演奏音频中当前音频序列的上一个成功匹配的音符序列；

基于所述相似度矩阵获得最大相似度对应的预测音符序列；

将所述预测音符序列与所述上一个成功匹配的音符序列的前、后音符序列进行比对；

根据比对结果调整所述跟随路径。

相应地，本申请一种实施例还提供了一种乐谱跟随路径的确定装置，包括：

获取音频模块，用于获取当前正在演奏的演奏音频及对应的乐谱音频；

确定演奏音频特征模块，用于确定所述演奏音频的音符起始点，并根据所述音符起始点及恒Q变换确定演奏音频特征向量；

确定泛音列向量模块，用于获取所述乐谱音频的泛音列分布，按照预设规则确定乐谱音频的泛音列向量；

确定相似度矩阵模块，用于根据所述演奏音频特征向量及所述乐谱音频的泛音列向量确定演奏音频与乐谱音频之间的相似度矩阵；

确定跟随路径模块，用于根据所述相似度矩阵确定所述演奏音频对所述乐谱音频的跟随路径。

进一步地，本申请实施例还提供了一种电子设备，所述电子设备包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述的乐谱跟随路径的确定方法。

此外，为实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中包括乐谱跟随路径的确定程序，所述乐谱跟随路径的确定程序被处理器执行时，实现如上所述的乐谱跟随路径的确定方法中的步骤。

与现有技术相比，本申请提供的方案至少具备如下优点：

本申请实施例提供的乐谱跟随路径的确定方法，通过确定演奏音频的音符起始点，基于音符起始点及恒Q变换确定演奏音频特征向量，利用演奏音频特征向量与乐谱音频的泛音列向量确定演奏音频与乐谱音频的相似度矩阵，基于相似度矩阵确定乐谱音频的跟随路径。本申请基于音符起始点实现对演奏音频与乐谱音频的对齐，在此基础上，利用相似度矩阵准确定位演奏音符在乐谱音频上的位置，实现对乐谱音频的准确跟随。

附图说明

图1为本申请一种实施例提供的乐谱跟随路径的确定方法的流程图；

图2为本申请一种实施例提供的确定演奏音频的音符起始点的流程图；

图3为本申请一种实施例提供的利用恒Q变换分别获得所述音符起始点的前一音符的特征向量及所述音符起始点的后一音符的特征向量的流程图；

图4为本申请另一种实施例提供的乐谱跟随路径的确定方法的流程图，其重点展示步骤S150之后的步骤；

图5为本申请一种实施例提供的乐谱跟随路径的确定装置的结构示意图；

图6为本申请一种实施例提供的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例，然而应当理解的是，本申请可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是，本申请的附图及实施例仅用于示例性作用，并非用于限制本申请的保护范围。

应当理解，本申请的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本申请的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”；术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本申请中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

MIDI(Musical Instrument Digital Interface)，定义了音乐的定时和控制信息在实时传输时候的数字编码方式，MIDI利用时间标记记录包含音调、音符等基本内容的乐曲信息，是乐谱和音频混合表现音乐的形式，是乐谱的数字描述。

和弦，不同音高的音在空间的叠置，则构成和弦，广义地说，三个或三个以上的音叠置就构成和弦。

基频，也称基本频率，当发声体由于振动而发出声音时，声音一般可以分解为许多单纯的正弦波，也就是说所有的自然声音基本都是由许多频率不同的正弦波组成，其中频率最低的正弦波为基音，而其他频率较高的正弦波则为泛音。由基音和泛音结合在一起形成的声音，叫做复音。

下面以具体实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请实施例首先提供了一种乐谱跟随路径的确定方法，图1为本申请一种实施例提供的乐谱跟随路径的确定方法的流程图，该方法可以由一个装置执行，该装置可以由软件和/或硬件实现，该方法可以在服务器端或客户端执行。

S110，获取当前正在演奏的演奏音频及对应的乐谱音频；

S120，确定所述演奏音频的音符起始点，根据所述音符起始点及恒Q变换确定演奏音频的特征向量；

S130，获取所述乐谱音频的泛音列分布，按照预设规则确定乐谱音频的泛音列向量；

S140，根据所述演奏音频特征向量及所述乐谱音频的泛音列向量确定演奏音频与乐谱音频之间的相似度矩阵；

S150，根据所述相似度矩阵确定所述演奏音频对所述乐谱音频的跟随路径。

获取正在演奏的乐曲的乐谱音频，实时接收正在演奏的演奏音频，乐谱音频可以为MIDI文件，也可以为WAV波形文件。MIDI文件把乐谱中音符的重要信息进行编码，同时针对特定演奏的不同细节也可以很准确地处理。

音符起始点表示琴键按下的时刻，音符起始点的一个特征是：能量的突然增加，或是频谱能量分布的改变。

确定演奏音频的音符起始点，基于音频起始点对演奏音频及乐谱音频进行对齐，有利于实现演奏音频对乐谱音频的准确跟随。

获取乐谱音频的泛音列分布，根据预设规则处理乐谱音频的泛音列，获得泛音列向量，泛音列向量是基于乐谱音频获得的，因此，泛音列向量能够体现乐谱音频的特征，能够基于演奏音频特征向量与泛音列向量确定演奏音频与乐谱音频之间的相似度关系。

跟随路径是当前演奏音频在乐谱音频上的位置，本申请通过演奏音频的音符起始点及相似度矩阵确定演奏音频的跟随路径，实现准确定位演奏音符在乐谱音频中的位置，实现演奏音频对乐谱音频的准确跟随。

检测演奏音频的音符起始点，本申请通过在每个音符起始点及其前后音符采用恒Q(Constant-Q Transform，CQT)变换来确定演奏音频的特征向量，使用音符比对函数计算相似度矩阵中的最佳匹配路径，能够较准确地实现乐谱跟随，及准确检测出演奏音频中的偏差音符。

为了更清楚本申请提供的日志信息的存储方案及其技术效果，接下来以多个实施例对其具体实施方案进行详细阐述。

在一种实施例中，步骤S120中确定演奏音频的音符起始点的步骤，可以通过如下方式实现，其流程图如图2所示，包括如下子步骤：

S121，根据预设处理时长切分所述演奏音频得到多个音频片段，相邻所述音频片段存在时间上的重叠；

S122，基于相邻音频片段的重叠时间形成目标窗口；

S123，利用神经网络确定所述目标窗口中音符起始点的触发概率，根据所述触发概率确定音符起始点。

获取到正在演奏的演奏音频，按照预设处理时长切分所述演奏音频，将所述演奏音频区分为多个音频片段，所述音频片段优选为预设处理时长的滑动窗口，相邻音频片段存在时间上的重叠，基于重叠时间形成目标窗口，由于目标窗口是基于重叠时间形成的，因此，目标窗口的时长为预设处理时长的一部分，如：预设处理时长为300ms，目标窗口的时长可以为50ms～100ms中的任一数值，可以为50ms、80ms、100ms等。

利用神经网络计算目标窗口中音符起始点的触发概率，如根据卷积神经网络CNN及长短期记忆人工神经网络LSTM计算各目标窗口中音符起始点的触发概率。

根据神经网络学习音符起始点的特点，即，检测目标窗口是否出现频谱能量的突变，若出现频谱能量的突变则表明可能是出现音符起始点，根据神经网络的大量训练获得频谱能量突变与出现音符起始点之间的关联关系，即确定频谱能量特点与出现音符起始点的概率之间的关系，根据神经网络的训练结果确定当前检测的各目标窗口中存在音符起始点的概率，即音符起始点的触发概率，将触发概率符合预设触发阈值的目标窗口判断为存在音符起始点，并确定音符起始点的准确位置，利用训练样本将神经网络对音符起始点的检测位置精确到10ms，实现对音符起始点的准确定位。

本实施方式提供的方案，将目标窗口设置为相邻音频片段的重叠时间，能够减小音频片段为滑动窗口时窗口边界对检测结果的影响，有利于得到更加准确可靠的检测结果。

步骤S120中根据演奏音频的音符起始点及恒Q变换确定演奏音频特征向量的过程如下：

A1，利用恒Q变换分别获得位于所述音符起始点的前一音符的特征向量及位于所述音符起始点的后一音符的特征向量；

A2，根据所述前一音符的特征向量及后一音符的特征向量确定两个音符的特征向量差值；

A3，基于所述向量差值及预设音符对比函数确定演奏音频特征向量。

基于常数Q变换(Constant-Q Transform，CQT)及预设音符对比函数实现对演奏音频与乐谱音频的准确对齐及实现对演奏音频特征向量的准确获取，在此基础上，基于演奏音频特征向量与乐谱音频的泛音列向量之间的相似度矩阵准确确定乐谱跟随路径。

本申请提供的乐谱跟随路径的确定方法，通过检测演奏音频的音符起始点，并在每个音符起始点及其前后音符采用常数Q变换来提取演奏音频特征向量，基于音符比对函数计算相似度矩阵中的最佳匹配路径，能够较准确地实现乐谱跟随，及准确检测出演奏音频中的偏差音符。

在一种可行的实施方式中，所述利用恒Q变换分别获得所述音符起始点的前一音符的特征向量及所述音符起始点的后一音符的特征向量的步骤，可以通过如下方式实现，其流程图如图3所示，包括：

S310，针对任一时间帧中时域信号及其窗函数进行恒Q变换，依次获得该时间帧中所有半音频率分量；

S320，保留所述半音频率分量在频率方向上的局部最大值，所述局部最大值的保留数量根据所述演奏音频同时击发的和弦数量确定；

S330，根据所述保留数量的局部最大值确定音符起始点的前一音符的特征向量及后一音符的特征向量。

其中，利用恒Q变换获得一个音符的任一半音频率分量的过程如下：

通过恒Q变换确定第n帧的第k个半音频率分量可表示为公式(1)，

其中，2πQ/N_k为基于log2的非线性频率，N_k为随频率变换的窗口长度，x(m)为时域信号，

为窗口长度为N_k的窗函数。其中，N_k可通过公式(2)计算，

其中，f_s为音频的采样频率，f_k表示第k分量的频率，即音阶频率,δ_fk表示频率f_k处的频率带宽，即频率解析度，恒Q变换保证了中心频率与带宽比为常量Q。

其中，Q可以通过公式(3)计算，

其中，δ_f表示频率f处的频率带宽，即频率解析度，β为一个八度内的谱线数量，若要精确到一个八度内的十二个琴键，β＝12。

公式(2)中的f_k可以通过公式(4)计算，

f_k＝2^k/βf_min，#(4)

可以获取并分析乐谱音频的MIDI文件，获得当前演奏乐曲的最低音f_min。

利用上述方式依次获得时间帧中所有半音频率分量，按照频率大小将所有半音频率分量进行由大到小的排序，保留排列顺序靠前的预设保留数量的半音频率分量，即获得保留数量的局部最大值。本申请优选将保留数量确定为演奏乐曲中同时击发和弦数量的两倍，例如：当前帧中演奏音频中同时击发的和弦数量为X，则保留数量为2X。基于保留数量的局部最大值能够较精准地表示音符的特征向量。

基于保留数量的局部最大值确定音符起始点的特征向量，优选根据同样的计算方法获取音符起始点的前一音符的特征向量及后一音符的特征向量。

A3中基于所述特征向量差值及预设音符比对函数确定演奏音频特征向量的过程如下：

针对每个音符起始点，利用音符起始点的前一音符的特征向量与后一音符的特征向量的差值以及预设音符比对函数确定演奏音频的特征向量，其中，音符比对函数可以通过如下公式(5)表示：

其中，dA_i(k)表示在音符起始点前后音符的特征向量差值，∈_i为max(dA_i(k))/m，其中，m＝20。

本申请利用恒Q变换计算演奏音频特征向量，在恒Q变换中，中心频率按指数规律变化，滤波带宽随中心频率变化，且比值恒定为Q，其频谱的纵轴频率不是线性的，而是以log2为底，并且可以根据谱线频率的不同改变滤波窗长度。采用这种方式计算演奏音频特征向量能够避免时频分辨率均匀的缺点，即恒Q变换对于低频的波，它的带宽十分小，但有更高的频率分辨率来分解相近的音符，对于高频的部分则有更高的时间分辨率来跟踪快速变化的泛音。

步骤S130的获取所述乐谱音频的泛音列分布，按照预设规则确定乐谱音频的泛音列向量的过程如下：

将泛音按照音高顺序排列，形成泛音列。泛音列，为频率是基音频率的整数倍的一系列的声音，这些声音都是纯音，可分别用正弦波表示。泛音的次序表示当前的音是第几分音。用五线谱表示的泛音列，体现了泛音在音乐中的相互关系：第一、二泛音与基音之间是纯八和纯五、到第七分音可以组成一个大小7和弦。

以钢琴为例，钢琴泛音列分布符合纯八度、纯五度、纯四度、大三度、小三度等分布规律，分别与基频的半音距离分别为12、19、24、28、31，本方案中，为了更好衡量某些可能琴键组合的复音泛音模型，我们做了如下设计:

根据乐谱音频的泛音列分布，乐谱音频的泛音列向量有如下四种形式：

1.只保留基频，则泛音列为[0](本身)；

2.保留基频和第一泛音，则泛音列为[0,12]；

3.保留基频、第一泛音和第二泛音，则泛音列为[0,12，24]；

4.保留基频、第一泛音、第二泛音、第三泛音，则泛音列为[0,12，24，28]。

本申请提供的确定泛音列的预设规则至少包括上述四种，泛音列组合越简单，听起来越协和，泛音列组合越复杂，听起来越不协和。

由于泛音列向量是基于乐谱音频提取的，因此，泛音列向量可以表征为乐谱音频的特征向量。

在此基础上，根据所述演奏音频特征向量及所述乐谱音频的泛音列向量确定演奏音频与乐谱音频之间的相似度矩阵的步骤，包括：

B1，计算所述演奏音频特征向量与按照预设规则确定的多个所述泛音列向量的皮尔逊相关系数；

B2，针对每个音符起始点获得最大所述相关系数，获得由多个音符起始点的最大所述相关系数组成的相似度矩阵。

皮尔逊相关系数，用于度量两个变量之间的相关程度，其值介于-1与1之间，在本申请提供的方案中，皮尔逊相关系数反映的是演奏音频与乐谱音频之间的线性关系和相关性。

针对每个音符起始点，依次计算演奏音频特征向量与上述按照预设规则确定的多个泛音列向量的皮尔逊相关系数，获得多个皮尔逊相关系数，并将其中最大的皮尔逊相关系数存入相似度矩阵中，即相似度矩阵中包括多个音符起始点对应的最大皮尔逊相关系数。

基于最大皮尔逊相关系数组成的相似度矩阵表征演奏音频与乐谱音频之间的线性关系及相关性，以便后续基于相似度矩阵确定演奏音频对乐谱音频的跟随路径。

步骤S150中根据所述相似度矩阵确定所述演奏音频对所述乐谱音频的跟随路径可以通过如下方式实现：

路径跟随的动态规划问题的关键就是确定状态转移方程，可选地，状态转移方程可通过各种模型得出，例如：数塔问题(动态搜索)，根据二维相似性矩阵构成一个数塔，求从最上面走到最底端经过的路径和最大。

根据上述方法确定动态规划跟随路径的状态转移方程，确定其中最长的DP路径为跟随路径；其中，所述状态转移方程可以通过公式(6)表示，

其中，DP(i,j)表示从i到j的路径长度，即从第一行第一列走到第i行第j列位置的最大值，η(i,j)为局部速度因子，S(i,j)为相似度矩阵。

其中，局部速度因子可以通过公式(7)表示，

其中，m1/m2表示局部的弹奏速率变化，j0为上一个已经匹配成功的音符序列，j1为预测可能匹配的音符序列。正常情况下，j1＝j0+1，即检测到的音符起始点所在的音符序列为乐谱音频对应的音符序列。

若演奏音频中实际音符击发时间远远晚于或早于准确的节拍点，即早于上一个音符或者晚于当前演奏速度下，下一个音符的预测时间，这种情况会导致当前检测到的音符起始点尝试与后续的音符序列进行匹配，即j1>j0+1，此时，纯粹从相似性矩阵中计算最大值路径可能存在错位匹配。此外，若用户在某个时间序列内弹奏了诸如相邻键或其他错误的音符，在相似性矩阵中完全不能被表达出来。

针对上述问题，本申请一种可行的实施方式中还提供了如下方案，在步骤S150之后，还包括如下步骤：

C1，获取演奏音频中当前音频序列的上一个成功匹配的音符序列；

C2，基于所述相似度矩阵获得最大相似度对应的预测音符序列；

C3，将所述预测音符序列与所述上一个成功匹配的音符序列的前、后音符序列进行比对；

C4，根据比对结果调整所述跟随路径。

本方案中定义局部最大相似性匹配为正确的跟随路径，即将j1与已匹配的j0进行向后的相似性匹配，j1可通过公式(8)进行计算，

针对实际演奏中漏检、跳跃的问题，例如：乐谱音频对应的音符序列包括EFA#A...，而当前检测到的演奏音频中音符序列为E A#A...，此时音符起始点检测属于漏检或者演奏者跳跃了音符第二位F，此时进行相似性匹配时无需在原位等待检测出音符F，而是将乐谱音频的音符序列中第二位F的下一位(第三位)A与演奏音频的音符序列中的第二位A进行相似性匹配。音符向后的相似性匹配的实现有利于提高乐谱跟随的精度及效率，而不会因为音符起始点的检测精准度不够或演奏者演奏不畅而导致乐谱跟随停滞。

针对演奏音频中的卡顿、错弹、漏弹等问题，本申请还提供了另一种可行的实施方式，该实施例中乐谱跟随路径的确定方法的流程图如图4所示，其重点在于展示：步骤S150的根据所述相似度矩阵确定所述演奏音频对所述乐谱音频的跟随路径之后，还包括如下步骤：

S160，检测到所述演奏音频中的异常点；

S170，获得演奏音频中与乐谱音频连续匹配成功的音符构成的最长音符序列；

S180，对所述最长音符序列进行最小二乘法估计，获得所述异常点导致的音符偏移量，利用所述音符偏移量调整所述跟随路径。

其中，演奏音频中的异常点包括：当前演奏的音符与乐谱音频中相应位置上的音符不符，可能是由于如下情况导致的错误，如：错弹、漏弹、跳弹等。

获得演奏音频中已进行匹配的音符序列，确定其中与乐谱音频连续匹配成功的音符构成的最长音符序列，对该最长音符序列进行最小二乘法估计，通过曲线拟合，即将残差平方综合的最小化，根据最小二乘法获得异常点导致的音符偏移量，将根据路径进行相反方向的音符偏移量，获得调整后的跟随路径。

本申请实施方式提供的方案，通过对异常点的检测，获得已匹配成功的最长音符序列获得异常点导致的音符偏移量，根据音频偏移量调整跟随路径，避免由于异常点出现导致的跟随路径错误。

本申请的目的是实现对乐谱的精准跟随，利用演奏音频特征向量与乐谱音频的泛音列向量的相似系数确定演奏音频与乐谱音频的跟随路径，实现使用动态规则来确定相似度矩阵中的最佳匹配路径。

相应地，本申请一种实施例还提供了一种乐谱跟随路径的确定装置500，其结构示意图如图5所示，乐谱跟随路径的确定装置500包括：获取音频模块510、确定演奏音频特征模块520、确定泛音列向量模块530、确定相似度矩阵模块540、确定跟随路径模块550，具体如下：

获取音频模510，用于获取当前正在演奏的演奏音频及对应的乐谱音频；

确定演奏音频特征模块520，用于确定所述演奏音频的音符起始点，并根据所述音符起始点及恒Q变换确定演奏音频特征向量；

确定泛音列向量模块530，用于获取所述乐谱音频的泛音列分布，按照预设规则确定乐谱音频的泛音列向量；

确定相似度矩阵模块540，用于根据所述演奏音频特征向量及所述乐谱音频的泛音列向量确定演奏音频与乐谱音频之间的相似度矩阵；

确定跟随路径模块550，用于根据所述相似度矩阵确定所述演奏音频对所述乐谱音频的跟随路径。

关于上述实施例中的乐谱跟随路径的确定装置，其中各个模块的执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

上述实施例提供的乐谱跟随路径的确定方法，可以应用于一种电子设备中。其结构示意图参照图6所示。

在本实施例中，电子设备600可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备。

电子设备包括：存储器以及处理器，其中，这里的处理器可以称为下文的处理装置601，存储器可以包括下文中的只读存储器(ROM)602、随机访问存储器(RAM)603以及存储装置608中的至少一项，具体如下所示：

如图6所示，电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

通常，以下装置可以连接至I/O接口605：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607；包括例如磁带、硬盘等的存储装置608；以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图3示出了具有各种装置的电子设备600，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置609从网络上被下载和安装，或者从存储装置608被安装，或者从ROM 602被安装。在该计算机程序被处理装置601执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行如下操作：

获取当前正在演奏的演奏音频及对应的乐谱音频；确定所述演奏音频的音符起始点，根据所述音符起始点及恒Q变换确定演奏音频的特征向量；获取所述乐谱音频的泛音列分布，按照预设规则确定乐谱音频的泛音列向量；根据所述演奏音频特征向量及所述乐谱音频的泛音列向量确定演奏音频与乐谱音频之间的相似度矩阵；根据所述相似度矩阵确定所述演奏音频对所述乐谱音频的跟随路径。

此外，本申请实施例还提出一种计算机可读存储介质，计算机可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。计算机可读介质可以是机器可读信号介质或机器可读储存介质。计算机可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。计算机可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。所述计算机可读存储介质中包括乐谱跟随路径的确定程序，所述乐谱跟随路径的确定程序被处理器执行时实现上述任一项技术方案所述的乐谱跟随路径的确定方法的步骤。

本申请之计算机可读存储介质的具体实施方式与上述乐谱跟随路径的确定方法、电子设备的具体实施方式大致相同，在此不再赘述。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种乐谱跟随路径的确定方法，其特征在于，包括：

获取当前正在演奏的演奏音频及对应的乐谱音频；

2.根据权利要求1所述的乐谱跟随路径的确定方法，其特征在于，所述确定所述演奏音频的音符起始点的步骤，包括：

基于相邻音频片段的重叠时间形成目标窗口；

3.根据权利要求1所述的乐谱跟随路径的确定方法，其特征在于，所述根据演奏音频的音符起始点及恒Q变换确定演奏音频特征向量的步骤，包括：

4.根据权利要求3所述的乐谱跟随路径的确定方法，其特征在于，所述利用恒Q变换分别获得所述音符起始点的前一音符的特征向量及所述音符起始点的后一音符的特征向量的步骤，包括：

5.根据权利要求1所述的乐谱跟随路径的确定方法，其特征在于，根据所述演奏音频特征向量及所述乐谱音频的泛音列向量确定演奏音频与乐谱音频之间的相似度矩阵的步骤，包括：

6.根据权利要求1所述的乐谱跟随路径的确定方法，其特征在于，所述根据所述相似度矩阵确定所述演奏音频对所述乐谱音频的跟随路径之后，还包括：

检测到所述演奏音频中的异常点；

7.根据权利要求1所述的乐谱跟随路径的确定方法，其特征在于，所述根据所述相似度矩阵确定所述演奏音频对所述乐谱音频的跟随路径之后，还包括：

基于所述相似度矩阵获得最大相似度对应的预测音符序列；

根据比对结果调整所述跟随路径。

8.一种乐谱跟随路径的确定装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7中任一项所述的乐谱跟随路径的确定方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括乐谱跟随路径的确定程序，所述乐谱跟随路径的确定程序被处理器执行时，实现如权利要求1至7中任一项所述的乐谱跟随路径的确定方法的步骤。