CN108780634B

CN108780634B - 声音信号处理方法及声音信号处理装置

Info

Publication number: CN108780634B
Application number: CN201780015943.3A
Authority: CN
Inventors: 前泽阳
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2016-03-11
Filing date: 2017-03-10
Publication date: 2023-05-09
Anticipated expiration: 2037-03-10
Also published as: JP2017161852A; US20180374463A1; DE112017001277B4; JP6693189B2; DE112017001277T5; WO2017155098A1; CN108780634A; US10629177B2

Abstract

声音信号处理方法具有下述步骤：取得输入声音信号中的单位时间长度的步骤(S2)；根据输入声音信号对音色特征量进行计算的步骤(S3)；在针对音色特征量，在输入声音信号中以单位时间长度为基准而假定出1拍及1小节的时间长度的情况下，对表示假定出的时间长度的妥当性的指标进行计算的步骤(S4)；以及基于该指标对以单位时间长度为基准的1拍及1小节的时间长度进行推定的步骤(S5)。

Description

声音信号处理方法及声音信号处理装置

技术领域

本发明涉及根据表示乐曲的声音信号，对乐曲中的节拍及小节的时间长度进行推定的技术。

背景技术

已知对声音信号进行解析的技术。例如在专利文献1及2中，记载有根据表示乐曲的声音信号，使用概率模型而推定该乐曲的拍点、节奏、小节线的位置及和弦的技术。

专利文献1：日本特开2015－114361号公报

专利文献2：日本特开2015－200803号公报

发明内容

在专利文献1及2记载的技术中，需要预先定义拍点、节奏、拍子及和弦进行等的变化概率模型。

与此相对，本发明提供根据输入声音信号，更简单地对节拍及小节的长度进行推定的技术。

本发明的一个方式提供一种声音信号处理方法，其具有下述步骤：取得表示乐曲的输入声音信号中的单位时间长度；根据所述输入声音信号对音色特征量进行计算；在针对所述音色特征量，在所述输入声音信号中以所述单位时间长度为基准而假定出所述乐曲中的1拍及1小节的时间长度的情况下，对表示该假定出的时间长度的妥当性的第一指标进行计算；以及基于所述第一指标对以所述单位时间长度为基准的所述1拍及1小节的时间长度进行推定。

另外，本发明的其他方式提供一种声音信号处理装置，其具有：单位时间取得单元，其取得表示乐曲的输入声音信号中的单位时间长度；特征量计算单元，其根据所述输入声音信号对音色特征量进行计算；第一指标计算单元，其在针对所述音色特征量，在所述输入声音信号中以所述单位时间长度为基准而假定出所述乐曲中的1拍及1小节的时间长度的情况下，对表示该假定出的时间长度的妥当性的第一指标进行计算；以及推定单元，其基于所述第一指标对以所述单位时间长度为基准的所述1拍及1小节的时间长度进行推定。

可以使用针对所述1拍及1小节的时间长度的组合而预先设定的优先级对所述指标进行计算。

发明的效果

根据本发明，能够根据输入声音信号，更简单地对节拍及小节的长度进行推定。

附图说明

图1是例示一个实施方式所涉及的声音信号处理装置1的功能结构的图。

图2是例示声音信号处理装置1的硬件结构的图。

图3是例示声音信号处理装置1的动作的流程图。

图4是例示指标计算处理的详细内容的流程图。

图5是例示DFT结果的图。

图6是例示综合的DFT结果的图。

图7是例示所存储的优先级的图。

具体实施方式

1.结构

图1是例示一个实施方式所涉及的声音信号处理装置1的功能结构的图。声音信号处理装置1是根据表示乐曲的声音信号(以下称为“输入声音信号”)，对该乐曲中的拍子进行推定的装置。

声音信号处理装置1具有：输入声音取得单元11、单位时间取得单元12、特征量计算单元13、指标计算单元14、推定单元15、存储单元16及输出单元17。输入声音取得单元11取得输入声音信号即表示成为下面的处理对象的乐曲的声音信号。单位时间取得单元12取得输入声音信号中的单位时间长度。特征量计算单元13根据输入声音信号，对音色特征量进行计算。指标计算单元14在针对由特征量计算单元13计算出的音色特征量，在输入声音信号中以单位时间长度为基准而假定出1拍及1小节的时间长度的情况下，对表示假定出的时间长度的妥当性的指标进行计算。推定单元15基于由指标计算单元14计算出的指标，对以单位时间长度为基准的1拍及1小节的时间长度进行推定。

存储单元16针对1拍及1小节的时间长度的组合而存储有预先设定的优先级。在该例中，推定单元15基于在存储单元16中存储的优先级，对1拍及1小节的时间长度进行推定。输出单元17输出与由推定单元15推定出的1拍及1小节的时间长度相关的信息。

图2是例示声音信号处理装置1的硬件结构的图。声音信号处理装置1是计算机装置，具有：CPU(Central Processing Unit)101、存储器102、储存器103、通信接口104、输入装置105及输出装置106。CPU 101是对声音信号处理装置1的各部进行控制的控制装置。存储器102是作为由CPU 101执行程序时的工作区域起作用的主存储装置。储存器103是对各种程序及数据进行存储的非易失性的存储装置。通信接口104是与其他装置进行按照规定的通信标准的通信的装置。输入装置105是用于对声音信号处理装置输入信息的装置，例如包含传声器、触摸屏、键区及按钮的至少1个。输出装置106是用于输出信息的装置，例如包含显示器及扬声器的至少一者。

储存器103存储有用于使计算机装置作为声音信号处理装置1起作用的程序。CPU101执行该程序，由此实现图1所示的功能。执行该程序的CPU 101是输入声音取得单元11、单位时间取得单元12、特征量计算单元13、指标计算单元14及推定单元15的一个例子。存储器102及储存器103是存储单元16的一个例子。输出装置106是输出单元17的一个例子。

2.动作

图3是例示声音信号处理装置1的动作的流程图。图3的流程例如以上述的程序被启动为契机而开始。该流程是对乐曲的节拍及小节的时间长度进行推定的声音信号处理方法所涉及的流程。例如，如果假定为节拍是八分音符的倍数，则节拍及小节的时间长度的推定相当于求出构成1拍的八分音符的数b及构成1小节的节拍的数m。参数m表示该乐曲为m拍子。例如，在2拍子的乐曲中m＝2，在3拍子的乐曲中m＝3，在4拍子的乐曲中m＝4。关于节拍及小节的时间长度的推定，详细地说是如下所述而进行的。

在步骤S1中，输入声音取得单元11取得输入声音信号。输入声音信号例如是基于非压缩或者压缩形式(wav、mp3等)的声音数据的乐曲的声音信号，但并不限定于此。该声音数据也可以预先存储于储存器103，也可以从声音信号处理装置1的外部输入。

在步骤S2中，单位时间取得单元12取得单位时间长度ta。单位时间长度ta是指乐曲中的音乐性时间的最小单位，例如是指某乐器的演奏音的重复单位(作为一个例子，在利用踩镲打出节奏的情况下，是从踩镲的一击至下一击为止的间隔)。单位时间长度ta相当于该乐曲中的例如八分音符或者十六分音符的长度。作为一个例子，单位时间取得单元12通过对输入声音信号进行解析，从而对单位时间长度ta进行计算。在单位时间长度ta的计算中使用公知的技术。或者，单位时间长度ta也可以通过用户的指示输入而指定。在该情况下，单位时间取得单元12对应于用户的指示输入而取得单位时间长度ta。具体地说，例如，与输入声音相匹配地在相当于单位时间长度的定时由用户将按钮重复按压(或者对触摸屏进行点击)，单位时间取得单元12与其相应地决定单位时间长度ta。

不论是通过声音信号处理装置1而自动地计算，还是通过用户的指示输入而被指定，声音信号中的特征显现的定时(作为一个例子，为踩镲鸣响的定时)不一定完全地是周期性的。因此，在步骤S2中取得的单位时间长度ta，无需在输入声音信号中的解析对象的整个区间恒定。输入声音信号被分为多个区间，在各区间中单位时间长度ta可以不同。即，单位时间长度ta是用于对后面记述的音色特征量进行平滑化的时间长度的列。或者，声音信号处理装置1可以通过对平均值进行计算等方法，决定在解析对象的整个区间范围恒定的单位时间长度ta。在该情况下，关于在乐曲中该定时的间隔的变化超过阈值(例如平均值的10％)的部分(例如在曲中节奏改变的部分)，声音信号处理装置1可以与其他部分相区分而进行处理。

再次参照图3。在步骤S3中，特征量计算单元13对音色特征量进行计算。在该例子中，作为音色特征量，使用MFCC(Mel Frequency Cepstrum Coefficient；美尔频率倒谱系数)。MFCC是多维(作为一个例子为12维)的矢量。MFCC作为在声音信号中表示音色的特征的参数而被广泛知晓，在MFCC的计算中使用公知的技术。MFCC以在各时间帧中指定出的单位时间长度ta为单位，针对每个时间帧进行计算。即，在步骤S3中，得到MFCC的特征系列x[d，t]。x[d，t]是表示时刻t的第d维的特征量的(d∈[0，D]、t∈[0，T])。此外，时刻t以单位时间长度ta为单位而表示。

在步骤S4中，指标计算单元14对指标进行计算。该指标在针对音色特征量，在输入声音信号中以单位时间长度ta为基准而假定出1拍及1小节的时间长度的情况下，表示该假定出的时间长度的妥当性。

图4是例示步骤S4中的指标计算处理的详细内容的流程图。在步骤S41中，指标计算单元14在时间区域对MFCC进行离散傅立叶变换(DFT；Discrete Fourier Transform)。由此，得到DFT的绝对值R[d，n](下式(1))。此外，n是相当于频率的参数(n∈[0，N])。

[式1]

R[d，n]＝|DFT{x[d，t]}|...(1)

图5是例示DFT结果的图。DFT结果得到与MFCC的维度相对应的数。例如在MFCC为12维的矢量的情况下，得到12个DFT的结果。此外，在该DFT结果中，纵轴表示频谱强度，横轴表示以单位时间长度ta为基准的周期τ[ta]。例如，在周期τ＝3处出现的峰值是与周期3ta的重复相当的峰值。

再次参照图4。在步骤S42中，指标计算单元14根据多个DFT频谱，对指标S[l]进行计算。指标S[l]表示在输入声音信号中周期l的重复出现的强度(l∈[0，L])。具体地说，指标计算单元14通过下式(2)对积和S[l]进行计算。

[式2]

S[l]＝∑_nw[l,n](∑_dR[d,n])...(2)

在这里，w[l，n]为，

[式3]

其中，

[式4]

。式(2)～(4)代表在长度N的振幅DFT中对与周期l相对应的周边的数据进行积和。即，w[l，n]是用于对周期l的周边的数据进行提取的窗函数。此外，式(4)的λ是通过实验决定的常数。即，步骤S42针对DFT的结果，应用与在时间区域中以单位时间长度ta为基准的乐曲中的1拍及1小节的时间长度相对应的窗函数，由此对其1拍及1小节的时间长度的指标进行计算。

图6是例示指标S[l]的图。在这里为了进行说明，将DFT值ΣRd及窗函数w[l，n]一起进行图示。该图示出l＝4的例子。指标S[l]相当于DFT频谱的周期l周边中的功率(图中的影线区域的面积)。指标计算单元14针对多个周期l，分别对指标S[l]进行计算。指标计算单元14将计算出的S[l]存储于存储单元16。

再次参照图4。在步骤S43中，指标计算单元14假定构成节拍及小节的单位时间长度ta的数。更详细地说，指标计算单元14假定构成1拍的单位时间长度ta的数b及构成1小节的节拍的数m。即，指标计算单元14将1拍的长度假定为b·ta，将1小节的长度假定为m·b·ta。

在该例子中，关于m及b的组合(m，b)的候选，从音乐性观点出发被预先限定。首先，第1，几乎所有的乐曲都是2拍子、3拍子、或者4拍子。因此，即使例如在限定为m∈{2、3、4}，大多的情况下没有问题。另外，如果考虑到单位时间长度ta与八分音符或者十六分音符相对应，则即使限定为m∈{2、3、4}，大多的情况下没有问题。如果将m及b例如如上述地进行限定，则组合(m，b)的候选被限定为9种。存储单元16存储有对组合的候选进行特定的信息。指标计算单元14从这9种候选中，依次对一个组合进行选择。此外，在这里说明的组合(m，b)的候选的限定只是例示，并不限定于此。

在步骤S44中，指标计算单元14取得与选择出的组合(m，b)相对应的优先级P0[m，b]。优先级P0是预先设定的，存储于存储单元16。

图7是例示在存储单元16中存储的优先级P0的图。在这里，关于组合(m，b)各自设定有优先级P0。另外，在这里为了进行说明，在备注栏中记载有各组合(m，b)为何种拍子。此外，该备注本身可以不存储于存储单元16。在该例子中，优先级P0的值越高，代表其(m，b)的组合发生的可能性越高。例如，(m，b)＝(4，2)相当于4/4拍子(单位时间长度ta相当于八分音符)。4/4拍子的乐曲频繁出现，因此在这里设定为P0[4，2]＝1.0。另一方面，(m，b)＝(4，3)相当于12/8拍子，但12/8拍子的乐曲与4/4拍子的乐曲相比较，出现频率低，因此在这里设定为P0[4，3]＝0.1。指标计算单元14从在存储单元中存储的优先级中，将所选择的组合(m，b)读出。

再次参照图4。在步骤S45中，指标计算单元14对指标P[m，b]进行计算。指标P[m，b]表示假定出的组合(m，b)的妥当性。在该例中，其值越大，则表示组合(m，b)越妥当。具体地，指标计算单元14通过下述(5)对指标P[m，b]进行计算。

[式5]

P[m，b]＝s[b]+S[mb]+P₀[m，b]...(5)

作为一个例子，在(m，b)＝(4，4)的情况下，为

[式6]

P[4,4]＝s[4]+S[16]+P₀[4,4]...(6)

。指标计算单元14将计算出的指标P[m，b]存储于存储单元16。

此外，关于指标S[l]，需要计算至相当于m及b之积的S[mb]为止。即，针对m及b的最大值mmax及bmax，周期l需要将

[式7]

l_max＝m_max·b_max...(7)

覆盖。例如，在mmax＝4及bmax＝4的情况下，

[式8]

l∈{2，3，4，6，8，9，12，16}...(8)

。因此，指标计算单元14在步骤S42中，在式(8)的范围对指标S[l]进行计算。

在步骤S46中，指标计算单元14针对(m，b)的全部组合候选而判断指标P[m，b]的计算是否完成。在判断为仍存在没有计算出指标P[m，b]的组合(m，b)的情况下(S46：NO)，指标计算单元14将处理跳转至步骤S43。下面，对组合(m，b)进行更新，步骤S44及S45的处理被重复执行。在判断为针对全部组合候选而指标P[m，b]的计算完成的情况下(S46：YES)，指标计算单元14结束图4的流程。

再次参照图3。在步骤S5中，推定单元15对输入声音信号中最合理的组合(m，b)进行推定。具体地说，指标计算单元14将指标P[m，b]示出最高值的组合(m，b)推定为最合理组合。

在步骤S6中，输出单元17输出与由推定单元15推定出的组合(m，b)相关的信息。与组合(m，b)相关的信息例如是输入声音信号所涉及的乐曲的拍子(4/4拍子、4/3拍子等)。或者，输出单元17将用于对组合(m，b)进行特定的参数输出。在输出对象是用户的情况下，该信息的输出例如是显示器中的显示。在输出对象为其他声音信号处理系统的情况下，该信息的输出例如是数据的输出。

3.实施例

表1例示出通过上述的实施方式所涉及的方法(实施例)和对比例所涉及的方法得到的拍子推定的结果。本申请的发明人针对实际的乐曲而使用实施例所涉及的方法及对比例所涉及的方法进行拍子推定，对其正确率进行了评价。作为对比例，使用了将乐曲的拍子全部推定为4/4拍子的算法。作为拍子推定的对象，准备出了100首所谓的流行音乐类的乐曲。此外，乐曲分类为4拍子类(拍子的分子为2的倍数)和3拍子类(拍子的分子为3的倍数)。

[表1]

在实施例中针对4拍子类的乐曲的正确率略低于对比例，但针对3拍子类的乐曲的正确率急剧地提高，作为整体，正确率与对比例相比大幅地改善。

4.变形例

本发明并不限定于上述的实施方式，能够实施各种变形。下面，对几个变形例进行说明。下面的变形例中的大于或等于2个变形例可以组合使用。

指标P[m，b]的具体的计算方法并不限定于实施方式中例示的方法。例如，可以不考虑优先级P0。即，式(5)的右边第3项可以被省略。

在实施方式中说明了组合(m，b)的候选从音乐性观点出发进行限定的例子，但也可以不进行如上所述的限定。例如，m及b各自的可取值的范围可以单独地设定，将在这些范围内可能的组合(m，b)全部设为组合的候选。此外在该情况下，可以通过优先级P0，排除在音乐性上没有意义的组合(m，b)被推定为最合理组合的可能性。例如，(m，b)＝(7，3)的组合相当于7/8拍子，但7/8拍子的乐曲本身存在得少，因此可以将优先级P0设定为低的值，例如设定为负值。

在实施方式的例子中，数m表示1小节所包含的节拍的数，但数m也可以表示1小节所包含的单位时间长度ta的数。在该情况下，数m必须是数b的整数倍，因此可以在对组合(m，b)的候选进行限定时将数m不是数b的整数倍的情况排除在外。或者，组合(m，b)的候选并不受到限定，可以将与数m不是数b的整数倍的组合(m，b)相对应的优先级P0设定为极低的值，例如－∞。

音色特征量并不限定于在实施方式中说明的内容。例如可以使用共振峰频率、LPC(Linear Predictive Coding)倒谱等MFCC以外的特征量。

窗函数并不限定于式(3)例示的函数。只要能够对周期l的周边的频谱进行提取，则函数的形式可以是任意的。

在实施方式的例子中，单一的装置具有图1的全部功能，但图1的功能也可以分开至客户端装置及服务器装置而进行安装。例如，可以是特征量计算单元13、指标计算单元14、推定单元15及存储单元16安装于服务器装置，输入声音取得单元11、单位时间取得单元12及输出单元17安装于客户端装置。

由声音信号处理装置1的CPU 101等执行的程序，可以由光盘、磁盘、半导体存储器等的存储介质提供，也可以经由互联网等通信线路而进行下载。另外，该程序无需具有图3的全部步骤。例如，该程序可以仅具有步骤S1、步骤S2及步骤S6。另外，该程序可以仅具有步骤S1、步骤S2及步骤S3。并且，该程序可以仅具有步骤S1及步骤S6。

本申请基于在2016年3月11日申请的日本专利申请即特愿2016－048562，享有其优先权，在这里作为参照而引入其内容。

标号的说明

1…声音信号处理装置，11…输入声音取得单元，12…单位时间取得单元，13…特征量计算单元，14…指标计算单元，15…推定单元，16…存储单元，17…输出单元，101…CPU，102…存储器，103…储存器，104…通信接口，105…输入装置，106…输出装置。

Claims

1.一种声音信号处理方法，其具有下述步骤：

取得表示乐曲的输入声音信号中的单位时间长度；

根据所述输入声音信号对音色特征量进行计算；

在针对所述音色特征量，在所述输入声音信号中以所述单位时间长度为基准而假定出所述乐曲中的1拍及1小节的时间长度的情况下，对表示该假定出的时间长度的妥当性的第一指标进行计算；以及

基于所述第一指标对以所述单位时间长度为基准的所述1拍及1小节的时间长度进行推定。

2.根据权利要求1所述的声音信号处理方法，其中，还具有下述步骤：

在以所述单位时间长度为基准的时间区域中针对所述音色特征量进行振幅离散傅立叶变换；以及

针对所述振幅离散傅立叶变换的结果，应用与在所述时间区域中以所述单位时间长度为基准的所述乐曲中的1拍及1小节的时间长度相对应的窗函数，由此对该1拍及1小节的时间长度的第二指标进行计算，

所述第二指标表示在输入声音信号中周期的重复出现的强度，

所述第一指标是使用1拍及1小节的时间长度的所述第二指标而进行计算。

3.根据权利要求1或2所述的声音信号处理方法，其中，

使用针对所述1拍及1小节的时间长度的组合而预先设定的优先级对所述第一指标进行计算。

4.根据权利要求1或2所述的声音信号处理方法，其中，

针对所述1拍及1小节的时间长度的组合的多个候选而分别计算所述第一指标，基于所述第一指标而从所述多个候选中选择1个1拍及1小节的时间长度的组合。

5.根据权利要求4所述的声音信号处理方法，其中，

选择针对所述多个候选而计算出的所述第一指标中的、所述第一指标示出最高值的1拍及1小节的时间长度的组合。

6.根据权利要求1或2所述的声音信号处理方法，其中，

还具有下述步骤，即，将与所述1拍的时间长度及所述1小节的时间长度相关的信息输出。

7.一种声音信号处理装置，其具有：

单位时间取得单元，其取得表示乐曲的输入声音信号中的单位时间长度；

特征量计算单元，其根据所述输入声音信号对音色特征量进行计算；

第一指标计算单元，其在针对所述音色特征量，在所述输入声音信号中以所述单位时间长度为基准而假定出所述乐曲中的1拍及1小节的时间长度的情况下，对表示该假定出的时间长度的妥当性的第一指标进行计算；以及

推定单元，其基于所述第一指标对以所述单位时间长度为基准的所述1拍及1小节的时间长度进行推定。

8.根据权利要求7所述的声音信号处理装置，其中，

还具有第二指标计算单元，该第二指标计算单元在以所述单位时间长度为基准的时间区域中针对所述音色特征量进行振幅离散傅立叶变换，针对所述振幅离散傅立叶变换的结果，应用与在所述时间区域中以所述单位时间长度为基准的所述乐曲中的1拍及1小节的时间长度相对应的窗函数，由此对该1拍及1小节的时间长度的第二指标进行计算，

9.根据权利要求7或8所述的声音信号处理装置，其中，

所述第一指标计算单元使用针对所述1拍及1小节的时间长度的组合而预先设定的优先级对所述第一指标进行计算。

10.根据权利要求7所述的声音信号处理装置，其中，

还具有存储单元，该存储单元对与1拍及1小节的时间长度的组合的多个候选相关的信息预先进行存储，

所述第一指标计算单元根据在所述存储单元中存储的信息，针对所述1拍及1小节的时间长度的组合的多个候选而分别对所述第一指标进行计算，

所述推定单元基于所述第一指标而从所述多个候选中选择1个1拍及1小节的时间长度的组合。

11.根据权利要求10所述的声音信号处理装置，其中，

所述推定单元选择针对所述多个候选而计算出的所述第一指标中的、所述第一指标示出最高值的1拍及1小节的时间长度的组合。

12.根据权利要求7或8所述的声音信号处理装置，其中，

还具有输出单元，该输出单元将与所述1拍的时间长度及所述1小节的时间长度相关的信息输出。