CN114402380A

CN114402380A - 音响信号解析方法、音响信号解析系统及程序

Info

Publication number: CN114402380A
Application number: CN202080064885.5A
Authority: CN
Inventors: 金子昌贤; 大嵜郁弥
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2019-09-27
Filing date: 2020-09-14
Publication date: 2022-04-26
Also published as: JPWO2021060041A1; WO2021060041A1; US20220215820A1; JP7298702B2

Abstract

本发明提供一种音响信号解析系统具有：取得部，其取得将音响信号的频率频谱在时间轴上进行平均得到的第1频谱；特定部，其通过分割搜索而确定与第2频谱相对应的频率差，该第2频谱包含相对于与规定的音律的音高相对应的多个基准值而分别具有频率差的多个成分，且与所述第1频谱的相似度大于规定的阈值；以及校正部，其以使得由特定部确定出的频率差中包含的系统误差降低的方式对该频率差进行校正。

Description

音响信号解析方法、音响信号解析系统及程序

技术领域

本发明涉及对音响信号进行解析的技术。

背景技术

以往，提出有对音响信号进行解析的各种技术。例如，在非专利文献1中，公开了对表示音响信号所表示的声音的频率相对于基准值以何种程度偏移的频率差(以平均律的440Hz作为基准值的偏移量)进行确定的技术。

非专利文献1：音響解析ライブラリ“librosa”[2019年6月26日检索](https://librosa.github.io/librosa/index.html)

发明内容

但是，在非专利文献1的技术中，存在用于确定频率差的计算量大、并且确定出的频率差的误差的方差大的问题。考虑到以上情况，本发明的目的在于，减小计算量，并且稳健且高精度地确定音响信号的频率差。

为了解决以上课题，本发明的一个方式涉及的音响信号解析方法，取得将音响信号的频率频谱在时间轴上进行平均得到的第1频谱，通过分割搜索而确定与第2频谱相对应的频率差，该第2频谱包含相对于与规定的音律的音高相对应的多个基准值而分别具有频率差的多个成分、且与所述第1频谱的相似度大于规定的阈值，以使得由所述分割搜索确定出的所述频率差中包含的系统误差降低的方式对该频率差进行校正。

本发明的一个方式涉及的音响信号解析系统具有：取得部，其取得将音响信号的频率频谱在时间轴上进行平均得到的第1频谱；特定部，其通过分割搜索而确定与第2频谱相对应的频率差，该第2频谱包含相对于与规定的音律的音高相对应的多个基准值而分别具有频率差的多个成分、且与所述第1频谱的相似度大于规定的阈值；以及校正部，其以使得由所述特定部确定出的所述频率差中包含的系统误差降低的方式对该频率差进行校正。

附图说明

图1是表示本发明的第1实施方式涉及的音响信号解析系统的结构的框图。

图2是表示控制装置的功能性结构的框图。

图3是第1频谱的示意图。

图4是暂定频谱的示意图。

图5是控制装置执行的处理的流程图。

图6是确定解析频率差的处理的流程图。

图7是与解析频率差的搜索相关的说明图。

图8是与校正前的解析频率差的误差相关的曲线图。

图9是与校正后的解析频率差的误差相关的曲线图。

图10是表示观测第1实施方式和对比例涉及的校正后的解析频率差的误差得到的结果的图表。

图11是表示第2实施方式涉及的控制装置的功能性结构的框图。

图12是表示观测第3实施方式中的解析频率差的误差得到的结果的图表。

具体实施方式

A：第1实施方式

图1是例示出本发明的第1实施方式涉及的音响信号解析系统100的结构的框图。音响信号解析系统100是对音响信号P进行解析的计算机系统。音响信号P是表示通过乐曲的演奏而发音的乐器音或通过乐曲的歌唱而发音的歌唱音等各种声音的时间区域的信号。音响信号解析系统100例如是移动电话机或智能手机等可移动型的信息终端、或者个人计算机等可移动型或固定型的信息终端。音响信号解析系统100的利用者例如是与音响信号P表示的声音的播放相匹配地演奏乐器的演奏者。音响信号解析系统100具有控制装置10、存储装置20、放音装置30和显示装置(显示部的例示)40。此外，音响信号解析系统100除了由单体的装置实现以外，还可以由彼此分体地构成的多个装置实现。

控制装置10例如是对音响信号解析系统100的各要素进行控制的单个或多个处理器。例如、控制装置10由CPU(Central Processing Unit)、GPU(Graphics ProcessingUnit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、或ASIC(Application Specific Integrated Circuit)等1种以上的处理器构成。

存储装置20例如是由磁记录介质或半导体记录介质等公知的记录介质构成的单个或多个存储器。存储装置20对控制装置10执行的程序和控制装置10使用的各种数据进行存储。此外，存储装置20也可以由多种记录介质的组合构成。另外，也可以将相对于音响信号解析系统100可装卸的可移动型的记录介质(例如光盘)、或者音响信号解析系统100经由通信网能够进行通信的外部记录介质(例如网络存储)，作为存储装置20而利用。存储装置20对表示乐曲的声音(乐器音和/或歌唱音)的音响信号P进行存储。音响信号P表示的声音的各频率有时由于例如音乐表现或意外的误差而与规定的基准值不一致。例如，音响信号P所表示的“A(ラ)”的声音的频率有时与基准值的440Hz不同。此外，音响信号P表示的声音不受乐曲的演奏音或歌唱音限定。

显示装置40(例如液晶显示面板)基于由控制装置10进行的控制而对各种图像进行显示。放音装置30(例如扬声器)是对音响信号P表示的声音进行放音的播放设备。

图2是例示出控制装置10的功能性结构的框图。控制装置10遵照存储于存储装置20的程序而执行多个任务，由此实现用于对音响信号P进行解析的多个功能(取得部11、生成部13、特定部15、校正部17及调整部19)。此外，控制装置10的功能的一部分或全部也可以由专用的电路来实现。

取得部11根据音响信号P而取得第1频谱St。图3是第1频谱St的示意图。第1频谱St由与频率轴上的不同频率(频率仓(bin))相对应的多个数值的序列表现。取得部11例如通过短时傅里叶变换等公知的频率解析，根据音响信号P而生成第1频谱St。具体而言，第1频谱St是将时间轴上的规定期间(以下，称为“解析期间”)内的音响信号P的多个频率频谱进行平均的平均频谱。即，第1频谱St使音响信号P的多个频率频谱的时间平均。第1实施方式的解析期间是音响信号P的所有区间(即乐曲的整体)。取得部11针对解析期间中包含的多个时间帧而分别计算频率频谱，将与不同的时间帧相对应的多个频率频谱进行平均，由此生成第1频谱St。此外，取得部11也可以取得事先存储于存储装置20的第1频谱St。

图2的生成部13生成暂定频谱Sd。在图4中通过虚线而示意性示出暂定频谱Sd。暂定频谱Sd包含与不同的N个频率fn(n＝1～N)分别相对应的成分。N个频率fn以遵照平均律的间隔在频率轴上离散地设定。具体而言，在频率轴上相邻的2个频率fn的间隔是100cent。即，N个频率fn与遵照平均律的音阶的多个音高1对1地相对应。各频率fn是从作为基准的频率(以下，称为“基准值”)Rn偏移了规定的频率差dx的量的频率。即，频率差dx是频率上的从基准值Rn的偏移量。

N个基准值Rn是存储于存储装置20的已知的数值。生成部13从存储装置20取得N个基准值Rn。N个基准值Rn与N个频率fn相同地，遵照平均律而规定于频率轴上。即，在频率轴上相邻的2个基准值Rn的间隔是100cent。频率差dx在N个频率fn的范围是共通的。也可以将1个频率(例如440Hz)和相对于该频率处于由平均律规定的关系的频率被视为多个基准值Rn。即，各基准值Rn是与遵照平均律的音阶的构成音的音高相当的频率。如根据以上说明所理解的那样，暂定频谱Sd是包含相对于与平均律(规定音律的例示)的音高相对应的N个基准值Rn而分别具有频率差dx的N个成分的频谱。

图2的特定部15对与和第1频谱St相似的暂定频谱Sd(以下，称为“第2频谱”)相对应的频率差dx(以下，称为“解析频率差dy”)进行确定。具体而言，将与第1频谱St的距离M小于规定的阈值的暂定频谱Sd(第2频谱)的频率差dx确定为解析频率差dy。距离M是表示第1频谱St和暂定频谱Sd之间相似或不同的程度的指标。具体而言，距离M例如通过对表示第1频谱St的向量和表示暂定频谱Sd的向量的内积标注负号而进行计算。此外，例如也可以将欧几里得距离作为距离M而利用。因此，第1频谱St和暂定频谱Sd相似的程度越高，距离M成为越小的数值。第2频谱是包含相对于基准值Rn偏移了解析频率差dy的量的频率fn的成分的暂定频谱Sd。

具体而言，特定部15通过分割搜索而确定解析频率差dy。分割搜索是通过将解析频率差dy可取的数值范围(以下，称为“搜索区间H”)分割为多个单位区域h而确定该解析频率差dy的搜索算法。具体而言，第1实施方式的分割搜索是黄金分割搜索。还可以换称为暂定频谱Sd是第2频谱的候补。如根据以上说明所理解的那样，第2频谱是与第1频谱St相似的频谱。即，解析频率差dy表示在第1频谱St中构成平均律的音阶的各声音的音高(频率fn)相对于基准值Rn以何种程度偏移。

这里，还设想将由特定部15确定出的解析频率差dy设为音响信号P表示的声音的频率差(相对于基准值Rn的偏移量)的真值。但是，本发明的发明人通过实验确认到，在通过分割搜索确定出的解析频率差dy，相对于音响信号P表示的声音的频率差的真值而发生系统误差。系统误差是相对于真值而系统性地测定出的误差。具体而言，判明了存在与实际的频率差相比解析频率差dy大出大约0.7～1.0cent的量。因此，图2的校正部17以使得解析频率差dy中包含的系统误差降低的方式对该解析频率差dy进行校正。具体而言，校正部17通过针对解析频率差dy减去规定的校正值而计算出解析频率差dz。规定的校正值是与系统误差对应地事先设定的数值，例如为0.7～1.0cent。

调整部19与由校正部17校正后的解析频率差dz对应地调整音响信号P的音高。具体而言，调整部19通过使音响信号P的音高偏移解析频率差dz的量而生成音响信号Pz。放音装置30对与音响信号Pz对应的音响进行放音。即，对音响信号P的音高接近基准值Rn的音响进行放音。

图5是控制装置10执行的处理的流程图。图5的处理例如以来自利用者的指示为契机而开始。如果开始图5的处理，则取得部11从音响信号P的解析期间取得第1频谱St(Sa1)。控制装置10在从存储装置20取得了N个基准值Rn的基础上，对与第1频谱St对应的解析频率差dy进行确定(Sa2)。

图6是确定解析频率差dy的处理(Sa2)的详细的流程图。图7是与解析频率差dy的搜索相关的说明图。在图7中，图示出解析频率差dy的搜索区间H。搜索区间H是最小值dmin和最大值dmax之间的数值范围。刚开始进行解析频率差dy的搜索之后的初始的搜索区间H设定于包含解析频率差dy可取的数值的规定的数值范围。

生成部13将搜索区间H分区为K个单位区域hk(k＝1～K)(Sa21)。具体而言，特定部15将搜索区间H通过边界值d1和边界值d2而分区为3个单位区域hk(h1～h3)。即，单位区域h1是最小值dmin和边界值d1之间的范围。单位区域h2是边界值d1和边界值d2之间的范围。单位区域h3是边界值d2和最大值dmax之间的范围。在黄金分割搜索中，以使[单位区域h1的区间长度：(单位区域h2的区间长度+单位区域h3的区间长度)]和[单位区域h2的区间长度：单位区域h3的区间长度]分别成为规定的黄金比[1：(1+5^1/2)/2]的方式进行设定。

生成部13生成暂定频谱Sd(Sa22)。具体而言，生成将边界值d1及边界值d2分别作为频率差dx的暂定频谱Sd。即，生成从基准值Rn偏移了边界值d1的量的暂定频谱Sd1、和从基准值Rn偏移了边界值d2的量的暂定频谱Sd2。

特定部15对暂定频谱Sd1和第1频谱St之间的距离M1、暂定频谱Sd2和第1频谱St之间的距离M2进行计算(Sa23)。然后，特定部15判定距离M1及距离M2各自是否小于规定的阈值(Sa24)。在判断为距离M1及距离M2中的至少一者小于阈值的情况下(Sa24:YES)，特定部15将与小于该阈值的距离M(M1或M2)相对应的暂定频谱Sd(Sd1或Sd2)的频率差dx确定为解析频率差dy(Sa25)。此外，在距离M1及距离M2这两者小于阈值的情况下，将与距离M1及距离M2中较小的距离M相对应的暂定频谱Sd的频率差dx确定为解析频率差dy。

在判断为距离M1及距离M2这两者大于阈值的情况下，(Sa24:NO)，特定部15利用距离M1及距离M2而设定新的搜索区间H(Sa26)。即，与距离M1及距离M2对应地对搜索区间H进行更新。具体而言，特定部15与距离M1和距离M2的对比结果对应地，将单位区域h1或单位区域h2的任一者从搜索区间H排除。即，通过缩窄搜索区间H而设定新的搜索区间H。例如，在距离M1大于距离M2的情况下，特定部15将单位区域h1从搜索区间H排除，将边界值d1和最大值dmax之间的范围设定为新的搜索区间H。即，边界值d1变为新的搜索区间H的最小值dmin。另一方面，在距离M2大于距离M1的情况下，特定部15将单位区域h3从搜索区间H排除，将最小值dmin和边界值d2之间的范围设定为新的搜索区间H。即，边界值d2变为新的搜索区间H的最大值dmax。

如果新的搜索区间H被设定，则反复执行步骤Sa21～步骤Sa24的处理。即，通过阶段性地缩窄搜索区间H，对在搜索区间H内距离M小于规定的阈值的频率差dx(即，解析频率差dy)进行确定。此外，也可以通过反复执行步骤Sa21～步骤Sa24的处理，将距离M最小的频率差dx确定为解析频率差dy。另外，在距离M1及距离M2这两者小于阈值的情况下，也可以将与距离M1相对应的频率差dx和与距离M1相对应的频率差dx之间的频率差dx确定为解析频率差dy。

如根据以上说明所理解的那样，在分割搜索中，针对作为K个单位区域hk的边界的频率差dx而对距离M进行计算，由此确定解析频率差dy。即，即使不针对搜索区间H内的所有频率差dx的每一者对距离M进行计算，也能够确定最佳的解析频率差dy。

如果确定了解析频率差dy，则如图5所例示的那样，校正部17以使得解析频率差dy中包含的系统误差降低的方式对该解析频率差dy进行校正，由此计算出解析频率差dz(Sa3)。然后，调整部19与解析频率差dz对应地调整音响信号P的音高，由此生成音响信号Pz(Sa4)。音响信号Pz被输出至放音装置30。放音装置30对与音响信号Pz对应的声音进行放音。

如根据以上说明所理解的那样，在第1实施方式中，通过分割搜索而确定与第2频谱相对应的解析频率差dy，该第2频谱与第1频谱St之间的距离M小于规定的阈值，并且以使得系统误差降低的方式对该解析频率差dy进行校正。因此，能够降低计算量，并且稳健且高精度地确定解析频率差dz。以下，对第1实施方式实现的效果进行详述。

图8及图9是表示针对多个(10023曲)乐曲的音响信号的每一者确定出的解析频率差的误差(绝对值)ε、和产生了该误差ε的乐曲的曲数之间的关系的曲线图。图8是与针对校正前的解析频率差dy的误差ε相关的曲线图，图9是与针对校正了系统误差的解析频率差dz的误差ε相关的曲线图。如根据图8及图9所掌握的那样，多个乐曲中的系统误差的校正后的解析频率差dz的误差ε为0cent的乐曲的曲数，多于多个乐曲中的解析频率差dy的误差ε为0cent的乐曲的曲数。即，解析频率差dz的误差ε小于解析频率差dy的误差ε。如根据以上说明所理解的那样，由校正部17对解析频率差dy进行校正，由此确定降低了该解析频率差dy的系统误差后的解析频率差dz。另外，如根据图8及图9所掌握的那样，多个乐曲中发生的解析频率差dz的误差ε的方差，小于多个乐曲中发生的解析频率差dy的误差ε的方差。如根据以上说明所理解的那样，根据第1实施方式，能够稳健地确定音响信号P相对于基准值Rn的频率差。

图10是表示针对第1实施方式和对比例分别观测了解析频率差的误差ε的结果的图表。在图10中示出了针对合计10023个乐曲的每一者而对解析频率差进行了解析的结果。对比例例如是如下结构，即，利用“音響解析ライブラリ(音响解析库)“librosa”(参考：https://librosa.github.io/librosa/generated/librosa.core.estimate_tuning.html？highlight＝estimate％20tuning#librosa.core.estimate_tuning)而确定解析频率差，对该解析频率差进行校正。具体而言，对比例是如下结构，即，将在解析频率差可取的数值范围中由规定的频率分辨率规定的多个网格(grid)(成为解析频率差dy的候补的候补值)中的最适当的候补值确定为解析频率差，对该解析频率差进行校正。

在图10中，示出了误差ε大于5cent的乐曲的总数的比率、误差ε大于10cent的乐曲的总数的比率、误差ε大于20cent乐曲的总数的比率。另外，误差ε的平均及标准偏差也一并记载于图10。

如图10所例示的那样，第1实施方式的结构与对比例相比，能降低发生解析频率差dz的误差ε的乐曲的比例。另外，第1实施方式的结构与对比例相比，误差ε的平均及标准偏差也小。如根据以上说明所理解的那样，根据第1实施方式，与对比例相比能够稳健且高精度地确定解析频率差dz。在对比例的结构中，为了高精度地确定解析频率差，需要缩窄由频率分辨率规定的网格的间隔。在缩窄了网格的间隔的情况下，用于确定解析频率差的计算量变大。与此相对，根据第1实施方式的结构，能够不受频率分辨率限制，对成为解析频率差dz的候补的频率差进行规定，因此能够降低计算量，并且高精度地确定解析频率差dz。

B：第2实施方式

对本发明的第2实施方式进行说明。此外，针对在以下例示的各方式中功能与第1实施方式相同的要素，沿用在第1实施方式的说明中使用过的标号，适当省略各自的详细的说明。

在第2实施方式中，对解析频率差dz进行显示。图11是表示第2实施方式涉及的控制装置10的功能性结构的框图。如图11所例示的那样，在第2实施方式中，将第1实施方式的调整部19置换为显示控制部18。显示控制部18将由校正部17生成的解析频率差dz输出至显示装置40。显示装置40对从显示控制部18输出的解析频率差dz进行显示。即，基于显示控制部18的控制而对解析频率差dz进行显示。

在第2实施方式中，也实现与第1实施方式相同的效果。在第2实施方式中，解析频率差dz由显示装置40进行显示，因此，利用者能够对该解析频率差dz进行确认，与该解析频率差dz对应地对乐器进行调音。利用者与音响信号P的播放并行地对调音后的乐器进行演奏。利用者不会在音响信号P表示的声音和自己所演奏的乐器的演奏音之间感受到音高的偏移，能够对乐器进行演奏。此外，还设想具有第1实施方式的调整部19和第2实施方式的显示控制部18这两者的结构。即，也可以执行与解析频率差dz对应的音响信号P的调整、和该解析频率差dz的显示这两者。

C：第3实施方式

如前述那样，取得部11通过将音响信号P中的解析期间内的频率频谱进行平均而对第1频谱St进行计算。在第1实施方式中，例示出解析期间是音响信号P的整体的情况。第3实施方式的解析期间是音响信号P的一部分的期间。解析期间设定为比通常的乐曲的时间长度短的规定的时间长度。取得部11例如随机地设定音响信号P的解析期间的时间轴上的位置，将针对该解析期间内的每个时间帧分别计算出的频率频谱进行平均，由此生成第1频谱St。解析期间的时间长度越短，用于生成第1频谱St的处理量越降低。

图12是表示针对使解析期间的时间长度不同的多个情况而分别观测了解析频率差dz的误差ε的结果的图表。在图12中，示出了针对使解析期间的时间长度不同的多个情况(1秒、10秒、30秒及90秒)而分别观测了误差ε的结果。根据图12可理解，解析期间的时间长度越长，则越能够高精度地推定解析频率差dz。另一方面，根据图12还能够确认到，即使是解析期间为30秒或10秒左右的短时间，也能够充分地高精度地推定解析频率差dz。此外，虽然即使是将解析期间设为1秒左右的方式，也能够以相应的精度对解析频率差dz进行推定，但从确保解析频率差dz的精度的观点出发，解析期间的时间长度例如优选设定为10秒以上，更优选设定为30秒以上。如根据以上说明所理解的那样，根据第3实施方式，具有如下优点，即，将确定解析频率差dz的精度维持于高水平，通过将解析期间设为音响信号P的一部分的期间而降低取得部11的处理量。

D：第4实施方式

在第3实施方式中，随机地设定了时间轴上的解析期间的位置。作为设定解析期间的时间轴上的位置的方法，例如也可以采用以下例示的多个方式(D1～D4)的任意者。

(1)方式D1

方式D1的取得部11通过对音响信号P进行解析而对乐曲的构造区间进行推定。构造区间是与音乐意义或乐曲内的定位对应地将乐曲在时间轴上进行了分区的区间。例如，构造区间是序曲(intro)、A段(verse)、B段(bridge)、副歌(chorus)或结尾(outro)。基于取得部11进行的构造区间的推定任意地采用公知的音乐解析技术(乐曲构造解析)。

取得部11在乐曲的多个构造区间中的特定的构造区间内设定解析期间。例如，在乐曲的序曲或结尾，有时有意地不存在构成乐曲的主要的乐音(利用者在演奏乐器时特别重视的乐音)。将以上倾向作为背景，取得部11在音响信号P中的与A段、B段或副歌相当的构造区间内设定规定长度的解析期间。

此外，构造区间内的解析期间的位置是任意的。例如，可以在构造区间内的随机的位置设定解析期间，也可以以包含构造区间内的特定的地点(例如，起点、终点或中点)的方式设定解析期间。将按以上顺序设定的解析期间内的多个频率频谱进行平均，由此生成第1频谱St。

(2)方式D2

在音响信号P表示的乐曲内，演奏音的总数(以下，称为“音数”)随时间经过而变化。音数是指音高或音色不同的乐音的总数，是相互并列地发音的乐音的总数、或在单位时间内发音的乐音的总数。设想如下倾向，即，音响信号P中的音数多的期间与音数少的期间相比，容易高精度地确定解析频率差dz。

将以上倾向作为背景，方式D2的取得部11将音响信号P中的音数多的期间设定为解析期间。取得部11例如针对将音响信号P按照规定的时间长度进行分区得到的多个期间而分别对音数进行计算，将多个期间中的音数最大的期间选择为解析期间。按以上顺序设定的解析期间内的多个频率频谱进行平均，由此生成第1频谱St。

(3)方式D3

方式D3的取得部11将音响信号P中的包含特定的乐器(以下，称为“特定乐器”)的演奏音的期间设定为解析期间。即，解析期间是音响信号P中的占主导地包含特定乐器的演奏音的音色的期间。特定乐器例如是利用者从多个候补选择的乐器、音响信号P中发音的频度或强度高的乐器、或音响信号P中发音的时间长度长的乐器。取得部11例如针对将音响信号P按照规定的时间长度进行分区得到的多个期间而分别判别演奏音的种类，将多个期间中存在特定乐器的演奏音的时间比率最大的期间选择为解析期间。将按照以上顺序设定的解析期间内的多个频率频谱进行平均，由此生成第1频谱St。

(4)方式D4

设想在音响信号P表示的乐曲中应当对解析频率差dz进行确定的期间(在乐曲内利用者重视解析频率差dz的期间)根据每个利用者而不同。因此，方式D4的取得部11与来自利用者的指示对应地设定解析期间的时间轴上的位置。例如，取得部11从利用者接收选择将音响信号P按照规定的时间长度进行分区得到的多个期间的哪一者的指示，将由利用者指示的期间设定为解析期间。

E：第5实施方式

在第3实施方式中，将解析期间设定为规定的时间长度，但也可以将解析期间的时间长度设为可变长度。作为对解析期间的时间长度进行控制的方法，例如，可以采用以下例示的多个方式(E1、E2)的任意者。

(1)方式E1

解析频率差dy的分散度(例如方差或差异)与乐曲的音响特性对应地针对每个乐曲是不同的。设想如下倾向，即，针对解析频率差dy的分散度大的乐曲，需要对解析期间确保充分的时间，但针对解析频率差dy的分散度小的乐曲，即使在解析期间短的情况下，也能够高精度地确定解析频率差dx。考虑到以上情况，方式E1的取得部11对针对音响信号P的多个期间而分别计算出的多个解析频率差dy的分散度进行计算，在该分散度大于阈值的情况和小于阈值的情况下，使解析期间的时间长度不同。例如，在分散度大于阈值的情况下，取得部11将解析期间设定为第1时间长度。另一方面，在分散度小于阈值的情况下，取得部11将解析期间设定为比第1时间长度短的第2时间长度。取得部11针对按照以上步骤设定出的时间长度的解析期间，对第1频谱St进行计算。

(2)方式E2

如根据图12所掌握的那样，解析期间的时间长度越长，也能够高精度地确定解析频率差dz。另一方面，解析期间的时间长度越短，则确定解析频率差dz所需的处理量越降低。另外，设想重视解析频率差dz的精度和处理量的削减的哪一者是根据利用者而不同的。因此，方式E2的取得部11与来自利用者的指示对应地设定解析期间的时间长度。例如，在利用者选择了优先考虑解析频率差dz的精度的动作模式的情况下，取得部11将解析期间设定为第1时间长度。另一方面，在利用者选择了优先考虑处理量的降低的动作模式的情况下，取得部11将解析期间设定为比第1时间长度短的第2时间长度。取得部11针对按照以上步骤设定的时间长度的解析期间，对第1频谱St进行计算。

F：第6实施方式

利用者重视解析频率差dz的频带根据利用者而不同。因此，取得部11也可以针对频率轴上的特定的频带(以下，称为“特定频带”)而生成第1频谱St。例如，取得部11通过将解析期间内的多个频率频谱进行平均而对平均频谱进行计算，通过频率区域的滤波处理对该平均频谱中的特定频带的成分进行提取，由此生成第1频谱St。在其他方式中，取得部11通过时间区域的滤波处理对音响信号P中的特定频带的成分进行提取，将提取后的信号中的解析期间内的多个频率频谱进行平均，由此生成第1频谱St。

特定频带可以是事先设定的固定的频带，但也可以是例如与来自利用者的指示对应的可变的频带。例如，取得部11将多个频带中的由利用者选择的频带设定为特定频带。

另外，也可以与由利用者进行的乐器的演奏对应地对特定频带进行设定。具体而言，与通过利用者进行的演奏而乐器发音的乐音对应地，对特定频带进行设定。例如，对通过乐器的演奏音的拾音而由拾音装置(传声器)生成的拾音信号进行解析，取得部11对该演奏音所述的频带进行确定。取得部11将演奏音所属的频带设定为特定频带。另外，在其他方式中，取得部11通过对拾音信号进行解析而识别乐器的种类，将针对不同的乐器而登记的多个音域中的、针对由利用者使用的乐器而登记的音域设定为特定频带。

G：变形例

以下，例示出对以上例示的各方式附加的具体变形的方式。可以在彼此不矛盾的范围，适当将从以下例示任意选择出的2个以上方式合并。

(1)在第3实施方式至第5实施方式中，从音响信号P中的作为时间轴上的一部分的解析期间取得第1频谱St，但取得部11也可以将音响信号P中的包含特定频带的成分的时间轴上的期间作为解析期间而取得第1频谱St。根据以上的结构，第1频谱St是从音响信号P中包含特定的频带的成分的时间轴上的期间取得的，因此，例如通过从包含特定的乐器的音域的成分的时间轴上的期间取得第1频谱St，能够降低噪声等影响而高精度地确定解析频率差dz。

(2)在前述的各方式中，作为分割搜索而例示出黄金分割搜索，但分割搜索不受以上的例示限定。例如，作为分割搜索也可以利用三分搜索。对于三分搜索，在图7中，以[单位区域h1的区间长度：单位区域h2的区间长度：单位区域h3的区间长度]成为[1：1：1]的方式进行设定。但是，根据通过黄金分割搜索对解析频率差dy进行确定的结构，与利用例如三分搜索等其他分割搜索对解析频率差dy进行确定的结构相比，能够有效地确定解析频率差dy。

(3)在前述的各方式中，将N个基准值Rn存储于存储装置20，但例如也可以仅存储1个基准值Rn(例如440Hz)。在以上的结构中，相对于1个基准值Rn以规定的间隔设定其他基准值Rn。

(4)在前述的各方式中，例示出通过平均律而规定的基准值Rn，但也可以通过平均律以外的音律对基准值Rn进行规定。例如，通过印度音乐等民族音乐的音律、或在频率轴上以任意的间隔规定出的音律，对基准值Rn进行规定。

(5)在第1实施方式中，在解析频率差dz小于规定的阈值的情况下，也可以不执行对音响信号P的音高进行调整的处理，而对与该音响信号P对应的音响进行放音。例如，对于小于大约6cent的频率差，通过人类的听觉是难以感知的。因此，例如，在解析频率差dz小于6cent的情况下，不执行对音响信号P的音高进行调整的处理。

(6)在前述的各方式中，作为表示第1频谱St和暂定频谱Sd之间的相似度的指标而利用了距离M，但表示该相似度的指标不受距离M限定。例如，也可以将第1频谱St和暂定频谱Sd之间的相关性，作为表示第1频谱St和暂定频谱Sd之间的相似度的指标而利用。第1频谱St和暂定频谱Sd越相似，则相关性成为越大的值。即，将相关性大于阈值的暂定频谱Sd的频率差dx确定为解析频率差dy。如根据以上说明所理解的那样，“相似度大于阈值”包含“距离M小于阈值”及“相关性大于阈值”这两者。

(7)以上所例示的音响信号解析系统100的功能如前述的那样，通过构成控制装置10的单个或多个处理器、和存储于存储装置20的程序(P1～P4)的协同动作而实现。本发明涉及的程序可以以储存于计算机可读取的记录介质的方式提供而安装于计算机。记录介质例如是非临时性(non-transitory)的记录介质，优选是CD-ROM等光学式记录介质(光盘)，还包含半导体记录介质或磁记录介质等公知的任意形式的记录介质。此外，作为非临时性的记录介质，包含除了临时性的传输信号(transitory,propagating signal)以外的任意的记录介质，也可以不将易失性的记录介质除外。另外，在传送装置经由通信网而传送程序的结构中，在该传送装置，对程序进行存储的存储装置12相当于前述的非临时性的记录介质。

H：附录

根据以上例示的方式，例如能够掌握以下结构。

本发明的一个方式(方式1)涉及的音响信号解析方法，取得作为音响信号的多个频率频谱的时间平均的第1频谱，取得与遵照规定的音律的不同的音高相对应的多个基准值，通过分割搜索而确定与第2频谱相对应的频率差，该第2频谱包含相对于所述多个基准值的每一者而分别具有频率差的多个成分，且以大于规定的阈值的相似度与所述第1频谱相似，以使得通过所述分割搜索确定出的所述频率差中包含的系统误差降低的方式对该频率差进行校正。根据以上的方式，通过分割搜索而确定与第2频谱相对应的频率差，该第2频谱包含相对于与规定的音律的音高相对应的多个基准值而分别具有频率差的多个成分，且与第1频谱的相似度大于规定的阈值，以使得系统误差降低的方式对该频率差进行校正。因此，与当前的方法(例如前述的对比例)相比，能够降低计算量，并且稳健且高精度地确定解析频率差。

在方式1的一个例子(方式2)中，与所述校正后的频率差对应地对所述音响信号的音高进行调整。根据以上的方式，与校正后的频率差对应地对音响信号的音高进行调整，因此能够通过与基准值对应地对乐器进行调音，从而与该音响信号的音高相匹配地进行演奏。

在方式1或方式2的一个例子(方式3)中，所述多个频率频谱是作为所述音响信号的一部分期间的解析期间内的多个频率频谱，在所述第1频谱的取得中，通过将所述解析期间内的所述多个频率频谱进行平均而生成所述第1频谱。根据以上的方式，从与音响信号的一部分相当的解析期间生成第1频谱，因此与将音响信号的全部的期间利用于第1频谱的生成的结构相比，削减第1频谱的生成所需的处理量。

在方式3的一个例子(方式4)中，所述解析期间的时间轴上的位置是可变的。根据以上的方式，能够从例如与音响信号的特性或利用者的意图对应的位置的解析期间，对适当的解析频率差进行确定。

在方式3或方式4的一个例子(方式5)中，所述解析期间的时间长度是可变的。根据以上的方式，能够从例如与音响信号的特性或利用者的意图对应的时间长度的解析期间，对适当的解析频率差进行确定。

在方式1至方式5中任意者的一个例子(方式6)中，在所述第1频谱的取得中，取得频率轴上的特定的频带内的频谱作为所述第1频谱。根据以上的方式，能够限定于频率轴上的特定频带的音响成分而对解析频率差进行确定。

在方式1或方式2的一个例子(方式7)中，所述多个频率频谱是所述音响信号中包含特定的频带的成分的时间轴上的期间内的多个频率频谱，在所述第1频谱的取得中，通过将包含所述特定的频带的成分的所述期间内的所述多个频率频谱进行平均而取得所述第1频谱。根据以上的方式，从音响信号中包含特定的频带的成分的时间轴上的期间取得第1频谱。因此，从例如包含特定的乐器的音域的成分的时间轴上的期间取得第1频谱，由此能够降低噪声等影响而高精度地确定频率差。

在方式1至方式7中任意者的一个例子(方式8)中，所述分割搜索是黄金分割搜索。根据以上的方式，利用黄金分割搜索而确定频率差，由此与利用例如三分搜索等其他分割搜索对频率差进行确定的结构相比，能够有效地确定频率差。

本发明的一个方式(方式9)涉及的音响信号解析系统具有：取得部，其取得作为音响信号的多个频率频谱的时间平均的第1频谱；特定部，其取得与遵照规定的音律的不同的音高相对应的多个基准值，通过分割搜索而确定与第2频谱相对应的频率差，该第2频谱包含相对于所述多个基准值的每一者而分别具有频率差的多个成分，且以大于规定的阈值的相似度与所述第1频谱相似；以及校正部，其以使得由所述特定部确定出的所述频率差中包含的系统误差降低的方式对该频率差进行校正。根据以上的方式，通过分割搜索而确定与第2频谱相对应的频率差，该第2频谱包含相对于与规定的音律的音高相对应的多个基准值而分别具有频率差的多个成分，且与第1频谱的相似度大于规定的阈值，以使得系统误差降低的方式对该频率差进行校正。因此，与当前的方法(例如前述的对比例)相比，能够降低计算量，并且稳健且高精度地确定解析频率差。

在方式9的一个例子(方式10)中，具有处理部，该处理部与由所述校正部校正后的频率差对应地对所述音响信号的音高进行调整。根据以上的方式，与校正后的频率差对应地对音响信号的音高进行调整，因此能够通过与基准值对应地对乐器进行调音，从而与该音响信号的音高相匹配地进行演奏。

在方式9或方式10的一个例子(方式11)中，所述多个频率频谱是作为所述音响信号的一部分期间的解析期间内的多个频率频谱，所述取得部通过将所述解析期间内的所述多个频率频谱进行平均而生成所述第1频谱。根据以上的方式，从与音响信号的一部分相当的解析期间生成第1频谱，因此与将音响信号的全部的期间利用于第1频谱的生成的结构相比，削减第1频谱的生成所需的处理量。

在方式11的一个例子(方式12)中，所述解析期间的时间轴上的位置是可变的。根据以上的方式，能够从例如与音响信号的特性或利用者的意图对应的位置的解析期间，对适当的解析频率差进行确定。

在方式11或方式12的一个例子(方式13)中，所述解析期间的时间长度是可变的。根据以上的方式，能够从例如与音响信号的特性或利用者的意图对应的时间长度的解析期间，对适当的解析频率差进行确定。

在方式9至方式13中任意者的一个例子(方式14)中，所述取得部取得频率轴上的特定的频带内的频谱作为所述第1频谱。根据以上的方式，能够限定于频率轴上的特定频带的音响成分而对解析频率差进行确定。

在方式9或方式10的一个例子(方式15)中，所述多个频率频谱是所述音响信号中包含特定的频带的、时间轴上的期间内的多个频率频谱，所述取得部通过将包含所述特定的频带的成分的所述期间内的所述多个频率频谱进行平均而取得所述第1频谱。根据以上的方式，从音响信号中包含特定的频带的成分的时间轴上的期间取得第1频谱。因此，从例如包含特定的乐器的音域的成分的时间轴上的期间取得第1频谱，由此能够降低噪声等影响而高精度地确定频率差。

在方式9或方式15中任意者的一个例子(方式16)中，所述分割搜索是黄金分割搜索。根据以上的方式，利用黄金分割搜索而确定频率差，由此与利用例如三分搜索等其他分割搜索对频率差进行确定的结构相比，能够有效地确定频率差。

在方式9或方式16中任意者的一个例子(方式17)中，具有显示部，该显示部对由所述校正部校正后的频率差进行显示。根据以上的方式，校正后的频率差显示于显示部，因此利用者能够与该频率差对应地对自己的乐器进行调音。

本发明的一个方式(方式18)涉及的程序使计算机作为如下功能部起作用：取得部，其取得作为音响信号的多个频率频谱的时间平均的第1频谱；特定部，其取得与遵照规定的音律的不同的音高相对应的多个基准值，通过分割搜索而确定与第2频谱相对应的频率差，该第2频谱包含相对于所述多个基准值的每一者而分别具有频率差的多个成分，且以大于规定的阈值的相似度与所述第1频谱相似；以及校正部，其以使得由所述特定部确定出的所述频率差中包含的系统误差降低的方式对该频率差进行校正。

标号的说明

100…音响信号解析系统，10…控制装置，11…取得部，13…生成部，15…特定部，17…校正部，18…显示控制部，19…调整部，20…存储装置，30…放音装置，40…显示装置，Sd…暂定频谱，St…第1频谱。

Claims

1.一种音响信号解析方法，其是由计算机实现的，其中，

取得作为音响信号的多个频率频谱的时间平均的第1频谱，

取得与遵照规定的音律的不同的音高相对应的多个基准值，

通过分割搜索而确定与第2频谱相对应的频率差，该第2频谱包含相对于所述多个基准值的每一者而分别具有频率差的多个成分，且以大于规定的阈值的相似度与所述第1频谱相似，

以使得通过所述分割搜索确定出的所述频率差中包含的系统误差降低的方式对该频率差进行校正。

2.根据权利要求1所述的音响信号解析方法，其中，

与所述校正后的频率差对应地对所述音响信号的音高进行调整。

3.根据权利要求1或2所述的音响信号解析方法，其中，

所述多个频率频谱是作为所述音响信号的一部分期间的解析期间内的多个频率频谱，

在所述第1频谱的取得中，通过将所述解析期间内的所述多个频率频谱进行平均而生成所述第1频谱。

4.根据权利要求3所述的音响信号解析方法，其中，

所述解析期间的时间轴上的位置是可变的。

5.根据权利要求3或4的音响信号解析方法，其中，

所述解析期间的时间长度是可变的。

6.根据权利要求1至5中任一项所述的音响信号解析方法，其中，

所述第1频谱是频率轴上的特定的频带内的频谱。

7.根据权利要求1或2所述的音响信号解析方法，其中，

所述多个频率频谱是所述音响信号中包含特定的频带的成分的时间轴上的期间内的多个频率频谱，

在所述第1频谱的取得中，通过将包含所述特定的频带的成分的所述期间内的所述多个频率频谱进行平均而取得所述第1频谱。

8.根据权利要求1至7中任一项所述的音响信号解析方法，其中，

所述分割搜索是黄金分割搜索。

9.一种音响信号解析系统，其具有：

取得部，其取得作为音响信号的多个频率频谱的时间平均的第1频谱；

特定部，其取得与遵照规定的音律的不同的音高相对应的多个基准值，通过分割搜索而确定与第2频谱相对应的频率差，该第2频谱包含相对于所述多个基准值的每一者而分别具有频率差的多个成分，且以大于规定的阈值的相似度与所述第1频谱相似；以及

校正部，其以使得由所述特定部确定出的所述频率差中包含的系统误差降低的方式对该频率差进行校正。

10.根据权利要求9所述的音响信号解析系统，其中，

具有处理部，该处理部与由所述校正部校正后的频率差对应地对所述音响信号的音高进行调整。

11.根据权利要求9或10所述的音响信号解析系统，其中，

所述取得部通过将所述解析期间内的所述多个频率频谱进行平均而生成所述第1频谱。

12.根据权利要求11所述的音响信号解析系统，其中，

所述解析期间的时间轴上的位置是可变的。

13.根据权利要求11或12所述的音响信号解析系统，其中，

所述解析期间的时间长度是可变的。

14.根据权利要求9至13中任一项所述的音响信号解析系统，其中，

所述第1频谱是频率轴上的特定的频带内的频谱。

15.根据权利要求9或10所述的音响信号解析系统，其中，

所述多个频率频谱是所述音响信号中包含特定的频带的时间轴上的期间内的多个频率频谱，

所述取得部通过将包含所述特定的频带的成分的所述期间内的所述多个频率频谱进行平均而取得所述第1频谱。

16.根据权利要求9至15中任一项所述的音响信号解析系统，其中，

所述分割搜索是黄金分割搜索。

17.根据权利要求9至16中任一项所述的音响信号解析系统，其中，

具有显示部，该显示部对由所述校正部校正后的频率差进行显示。

18.一种程序，其使计算机作为如下功能部起作用：