CN113196381B

CN113196381B - 音响解析方法以及音响解析装置

Info

Publication number: CN113196381B
Application number: CN202080007107.2A
Authority: CN
Inventors: 须见康平
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2019-01-11
Filing date: 2020-01-09
Publication date: 2023-12-26
Anticipated expiration: 2040-01-09
Also published as: WO2020145326A1; JP2020112683A; JP7375302B2; CN113196381A; US20210287641A1

Abstract

高精度地对音调进行推定。音响解析装置(100)具有：存储装置(12)，其存储程序，该程序实现根据音响信号(V)的特征量(Y)的时间序列的输入而生成表示音调的音调信息(H)的音调推定模型(22)，该音调推定模型是对音响信号(V)的特征量(Y)的时间序列和音调之间的关系进行了学习的训练好的模型；以及控制装置(11)，其通过执行程序而实现音调推定模型(22)。

Description

音响解析方法以及音响解析装置

技术领域

本发明涉及一种对乐曲进行解析的技术。

背景技术

以往提出了根据乐曲的歌唱音或演奏音等音响对各种信息进行推定的技术。例如，在专利文献1公开了根据表示乐曲的音响信号对和弦(chord)进行推定的结构。具体而言，根据音响信号对乐曲的音调进行推定，考虑到该推定出的调而推定和弦。另外，在专利文献2公开了根据乐曲的功率谱的形状而对调性的类别进行确定的结构。相应于根据功率谱的时间序列数据计算出的每个音名的功率，对调性的类别进行确定。

专利文献1：日本特开2015－31738号公报

专利文献2：日本特开2007－248610号公报

发明内容

在专利文献1的技术，根据出现频率最高的音符对乐曲的音调进行推定。但是，还存在与音调相对应的音符的出现频率低的乐曲。另外，在专利文献2的技术中，利用各音名的功率和调性的类别之间的相关关系而对调性的类别进行确定。但是，还存在各音名的功率和调性的类别没有相关关系的乐曲。即，根据专利文献1以及专利文献2的技术，实际上难以针对各种各样的乐曲而高精度地对音调进行推定。考虑到以上情况，本发明的目的在于高精度地对音调进行推定。

为了解决以上课题，本发明的方式涉及的音响解析方法是将音响信号的特征量的时间序列输入至对音响信号的特征量的时间序列和音调之间的关系进行了学习的训练好的模型，由此生成表示音调的音调信息。

本发明的方式涉及的音响解析装置具有：存储装置，其存储程序，该程序实现根据音响信号的特征量的时间序列的输入而生成表示音调的音调信息的音调推定模型，该音调推定模型是对音响信号的特征量的时间序列和音调之间的关系进行了学习的训练好的模型；以及控制装置，其通过执行程序而实现音调推定模型。

附图说明

图1是例示出第1实施方式涉及的音响解析装置的结构的框图。

图2是例示出音响解析装置的功能性结构的框图。

图3是特征量以及音调信息的概略性的说明图。

图4是特征量的说明图。

图5是音调信息的说明图。

图6是例示出音调推定处理的具体流程的流程图。

图7是学习处理部的动作的说明图。

图8是例示出第2实施方式涉及的音响解析装置的功能结构的框图。

图9是通过第2实施方式涉及的后处理进行了修正的音调的时间序列的说明图。

图10是例示出第2实施方式涉及的后处理的具体流程的流程图。

图11是例示出第3实施方式涉及的音响解析装置的功能结构的框图。

图12是通过第3实施方式涉及的后处理进行了修正的音调的时间序列的说明图。

图13是例示出第3实施方式涉及的后处理的具体流程的流程图。

具体实施方式

＜第1实施方式＞

图1是例示出本发明的第1实施方式涉及的音响解析装置100的结构的框图。音响解析装置100是通过对表示乐曲的歌唱音或演奏音等的音响的音响信号V进行解析，而对该乐曲的音调进行推定的信息处理装置。音响解析装置100将与多个主音(具体而言，平均律的12半音)和音调名(大调以及小调)的组合相当的24种类的音调作为候补，根据音响信号V对任意的音调进行推定。此外，音调的种类数不限定于24种。

音响解析装置100具有控制装置11、存储装置12和显示装置13。例如，便携式电话、智能手机或个人计算机等信息终端作为音响解析装置100进行利用。显示装置13对根据音响信号V推定出的音调进行显示。显示装置13是对解析音响信号V后的结果进行播放的播放装置的一个例子。例如，也可以将对与解析了音响信号V的结果相应的音响进行放音的放音装置作为播放装置而利用。

控制装置11例如由CPU(Central Processing Unit)等单个或多个处理电路构成，对音响解析装置100的各要素进行控制。存储装置12例如是由磁记录介质或半导体记录介质等公知的记录介质构成的单个或多个存储器，对控制装置11执行的程序和控制装置11使用的各种数据进行存储。例如，存储装置12对音响信号V进行存储。此外，也可以由多种记录介质的组合构成存储装置12。另外，可以将相对于音响解析装置100能够拆装的可移动型的记录介质、或音响解析装置100能够经由通信网进行通信的外部记录介质(例如网络硬盘)作为存储装置12而利用。

图2是例示出通过由控制装置11执行在存储装置12存储的程序而实现的功能的框图。控制装置11实现特征提取部21、音调推定模型22和学习处理部23。此外，可以通过相互分体地构成的多个装置来实现控制装置11的功能。也可以通过专门的电子电路来实现控制装置11的功能的一部分或全部。

特征提取部21根据在存储装置12存储的音响信号V而对该音响信号V的特征量Y进行提取。第1实施方式的特征提取部21具有第1处理部211、第2处理部212和第3处理部213。

第1处理部211根据音响信号V而对该音响信号V的特征量X进行提取。第2处理部212根据由第1处理部211提取出的特征量X而对和弦O进行推定。第3处理部213根据音响信号V而对特征量Y进行提取。特征量Y是考虑到音响信号V的时间变化而表示音响的特征的指标。作为一个例子，第3处理部213根据由第1处理部211提取出的特征量X和由第2处理部212推定出的和弦O而对特征量Y进行提取。特征量Y的时间序列被输入至音调推定模型22。

音调推定模型22是对特征量Y的时间序列和音调之间的关系进行学习(训练)的训练好的模型。具体而言，音调推定模型22通过特征量Y的时间序列的输入而生成表示音调的信息(以下，称为“音调信息H”)。

图3是特征量X、特征量Y以及音调信息H的说明图。特征量X针对每个单位期间T(T1，T2，T3，…)进行提取。单位期间T例如是与乐曲的1拍相当的期间。即，根据音响信号V而生成特征量X的时间序列。此外，也可以与乐曲的拍点无关地划分出固定长度或可变长度的单位期间T。

特征量X是针对音响信号V中与各单位期间T相对应的部分而表示音响的特征的指标。和弦O针对每个特征量X(即，针对每个单位期间T)进行推定。即，生成和弦O的时间序列。例如，将与不同和弦相关联的多个特征量X中的与由第1处理部211提取出的特征量X最相似的特征量X所关联的和弦推定为和弦O。此外，也可以将通过音响信号V的输入而生成和弦O的统计性推定模型(例如，隐马尔可夫模型或神经网络)利用于和弦O的推定。

特征量Y针对由第2处理部212推定出的相同和弦O持续的一系列区间(以下，称为“持续区间”)U的每个区间进行提取。由第2处理部212推定出相同和弦的区间为持续区间U。在乐曲内对多个持续区间U(U1，U2，U3…)进行推定。例如，针对作为和弦O而推定出“F”的持续区间U1(相当于单位期间T1－T4的区间)，提取1个特征量Y。

图4是示意性地表示特征量X以及特征量Y的图。特征量X包含：色度向量(Chromavector)(PCP：Pitch Class Profile音级轮廓)，其包含与多个音阶音(具体而言，平均律的12半音)分别相对应的多个要素；以及音响信号V的强度Pv。音阶音是忽略了八度音的差异的音名(音高等级pitch class)。色度向量中的与任意的音阶音相对应的要素设定为，将音响信号V中的与该音阶音相对应的成分的强度遍及多个八度音相加得到的强度(以下，称为“成分强度”)Pq。特征量X针对相对于规定的频率处于低频侧的频带和处于高频侧的频带，分别包含色度向量以及强度Pv。即，音响信号V中与低频侧的频带相关的色度向量、该频带内的音响信号V的强度Pv、音响信号V中与高频侧的频带相关的色度向量、和该频带内的音响信号V的强度Pv包含于特征量X。即，特征量X作为整体而通过26维的向量进行表现。

特征量Y针对低频侧的频带和高频侧的频带，分别包含与每个音阶音的成分强度Pq的时间序列相关的方差σq以及平均μq、和与音响信号V的强度Pv的时间序列相关的方差σv以及平均μv。第3处理部213通过对持续区间U内的多个特征量X各自包含的成分强度Pq(即，持续区间U内的成分强度Pq的时间序列)的方差σq以及平均μq、和持续区间U内的多个特征量X各自包含的强度Pv(即，持续区间U内的强度Pv的时间序列)的方差σv以及平均μv进行推算，从而对特征量Y进行提取。特征量Y作为整体而通过52维的向量表示。如根据以上说明所理解的那样，各持续区间U的特征量Y包含音响信号V中与音阶音相对应的成分强度Pq的与该持续区间U的时间变化相关的指标(典型的是方差σq等的分散度)。

图5是音调信息H的说明图。音调信息H针对作为推定的候补的24种类的音调，分别包含表示是否与持续区间U的音调相符的指标Q(Q1～Q24)。例如，与任意一个音调相对应的指标Q以2值方式表示该音调是否与持续区间U的音调相符。即，音调信息H是表示多个音调中的任意者的信息。通过针对每个持续区间U将特征量Y输入至音调推定模型22，从而针对每个该持续区间U而生成音调信息H。即，音调信息H的时间序列由音调推定模型22生成。如根据以上说明所理解的那样，音调推定模型22是根据特征量Y的时间序列对各持续区间U的音调进行推定的统计性推定模型。即，对乐曲的音调的时间序列进行推定。

音调推定模型22通过使控制装置11执行根据特征量Y的时间序列生成音调信息H的运算的程序(例如，构成人工智能软件的程序模块)和应用于该运算的多个系数K的组合而实现。多个系数K通过利用了多个教师数据的机器学习(特别是，深度学习)而设定并存储于存储装置12。例如，对于时间序列数据的处理将长短期记忆(LSTM：Long Short TermMemory)等循环型神经网络(RNN：Recurrent Neural Network)作为音调推定模型22而利用。

图6是例示出根据音响信号V对各持续区间U的音调信息H进行推定的处理(以下，称为“音调推定处理”)的具体流程的流程图。例如，以来自利用者的指示为契机而开始进行音调推定处理。如果开始进行音调推定处理，则特征提取部21根据存储于存储装置12的音响信号V针对每个持续区间U而对特征量Y进行提取(Sa1)。音调推定模型22根据由特征提取部21提取出的特征量Y的时间序列而生成音调信息H(Sa2)。控制装置11使由从音调推定模型22输出的音调信息H所表示的音调按每个持续区间U而显示于显示装置13(Sa3)。此外，表示由音调推定模型22进行的推定的结果的显示画面的内容是任意的。例如，对一并记载有由第2处理部212推定出的和弦的时间序列和由音调推定模型22推定出的音调的显示画面进行显示。此外，也可以与由音调推定模型22推定出的音调相应地对构成音共用的和弦的标记进行显示。例如，针对推定出音调“major”的持续区间U而显示和弦“/>”，针对推定出音调“Bmajor”的持续区间U而显示和弦“F#”。

学习处理部23通过机器学习(特别是，深度学习)而设定音调推定模型22的多个系数K。学习处理部23通过利用了多个教师数据L的机器学习而设定多个系数K。图7是学习处理部23的动作的说明图。多个教师数据L分别由特征量Y的时间序列和音调信息Hx的时间序列的组合构成。各教师数据L的音调信息Hx的时间序列相当于该教师数据L针对特征量Y的时间序列的正解值。从现有的乐曲的演奏音提取的特征量Y的时间序列、和表示该乐曲的音调的音调信息H的时间序列包含于教师数据L。

学习处理部23以减小通过输入教师数据L的特征量Y的时间序列而从暂定的音调推定模型22输出的音调信息H的时间序列、和该教师数据L的音调信息Hx之间的差异的方式，对音调推定模型22的多个系数K进行更新。具体而言，学习处理部23以使得表示音调信息H和音调信息Hx之间的差异的评价函数最小化的方式，例如通过误差逆传播法反复对多个系数K进行更新。通过以上流程由学习处理部23设定的多个系数K被存储于存储装置12。因此，音调推定模型22基于在多个教师数据L的特征量Y的时间序列和音调信息Hx之间潜在的倾向，针对未知的特征量Y的时间序列而输出统计上合理的音调信息H。

如以上所说明的那样，通过将音响信号V的特征量Y输入至对音响信号V的特征量Y和音调之间的关系进行了学习(训练)的音调推定模型22而生成音调信息H，因此与按照规定的规则而生成乐曲的音调信息H的结构相比，能够高精度地对音调进行推定。

＜第2实施方式＞

对本发明的第2实施方式进行说明。此外，对于以下的各例示中功能与第1实施方式相同的要素，沿用在第1实施方式的说明中使用的标号，适当地省略各自的详细说明。

乐曲的音调有在短期间发生变化的可能性低的倾向。在第2实施方式，基于以上倾向而对通过第1实施方式推定出的音调进行修正。

图8是例示出第2实施方式涉及的音响解析装置100的功能结构的框图。第2实施方式的音响解析装置100是在第1实施方式的音响解析装置100追加了后处理部24的结构。特征提取部21、音调推定模型22和学习处理部23与第1实施方式相同。在图9示意性地图示出通过音调推定模型22推定出的音调的时间序列Wa。图9的音调区间I(I1，I2，I3…)是由音调推定模型22生成的音调信息H所表示的音调连续的区间。如图9所例示的那样，在1个音调区间I包含被推定出相同音调的连续的1个以上的持续区间U。

后处理部24对由音调推定模型22推定出的音调的时间序列Wa进行修正。具体而言，后处理部24通过对与音调的时间序列Wa相对应的多个音调区间I中时间长度小于规定值的音调区间I的音调进行修正，从而生成时间序列Wb。规定值例如是与乐曲的3拍相当的时间长度。在图9中，例示出推定出音调“Emajor”的音调区间I2小于规定值的情况。第2实施方式的后处理部24在音调区间I的时间长度小于规定值的情况下，将该音调区间I的音调置换为紧随该音调区间I之前的音调区间的音调信息H所表示的音调。具体而言，将音调区间I2的音调“Emajor”置换为紧随音调区间I2之前的音调区间的持续区间U(即，音调区间I1的末尾的持续区间U)的音调信息H所表示的音调“Fmajor”。

图10是例示出对由音调推定模型推定出的音调进行修正的处理(以下，称为“后处理1”)的具体流程的流程图。在通过音调推定模型推定出音调的时间序列Wa之后，例如以来自利用者的指示为契机而开始进行后处理1。如果开始进行后处理1，则后处理部24根据音调的时间序列Wa在时间轴上划分出多个音调区间I(I1，I2，I3…)(Sb1)。即，确定出音调区间I的时间序列。后处理部24选择多个音调区间I的任意者(Sb2)。具体而言，从开头朝向末尾而依次选择音调区间I。后处理部24对在步骤Sb2中选择出的音调区间I的时间长度是否小于规定值进行判定(Sb3)。在音调区间I的时间长度小于规定值的情况下(Sb3：YES)，后处理部24将该音调区间I的音调置换为紧随该音调区间I之前的音调区间的音调信息H所表示的音调(Sb4)。另一方面，在音调区间I的时间长度大于规定值的情况下(Sb3：NO)，不执行音调的修正，选择位于紧随该音调区间I之后的音调区间I(Sb2)。如果针对全部的音调区间I的每一者执行时间长度的判定(Sb3)和比规定值短的音调区间I的音调的修正(Sb4)(Sb5：YES)，则控制装置11使显示装置13显示由后处理部24生成的音调的时间序列Wb(Sb6)。即，通过显示装置13进行显示针对多个音调区间I中的时间长度小于规定值的全部的音调区间I置换了音调的时间序列Wb。另一方面，在步骤Sb2中存在未选择的音调区间I的情况下(Sb5：NO)，后处理部24针对该未选择的音调区间I而反复执行步骤Sb2～Sb4的处理。此外，在音调区间I的时间序列中的开头的音调区间I的音调成为置换对象的情况下，置换为紧随该音调区间I之后的音调区间的音调信息H所表示的音调。

在第2实施方式，也实现与第1实施方式相同的效果。在第2实施方式，在音调信息H所表示的音调连续的音调区间I的时间长度小于规定值的情况下，将该音调区间I的音调置换为紧随该音调区间I之前的音调区间的音调信息H所表示的音调。因此，能够考虑到音调在短期间发生变化的可能性低的倾向而适当地对通过音调推定模型推定出的音调进行修正。此外，在第2实施方式，将紧随置换源之前的音调区间I的音调信息H所表示的音调设为置换目标，但也可以将紧随置换源之后的音调区间I的音调信息H所表示的音调设为置换目标。在以上的结构中，例如在图10的步骤Sb2中，从多个音调区间I中的末尾朝向开头而依次选择音调区间I。

＜第3实施方式＞

乐曲的和弦和音调存在相关关系。例如，以乐曲的音调的音阶作为构成音的和弦在该乐曲内进行演奏。特别是，有在乐曲中设定了特定的音调的区间的开头的和弦与以该音调的主音作为根音的和弦一致的可能性高的倾向。在第3实施方式，基于以上的倾向而对在第1实施方式中推定出的音调进行修正。

图11是例示出第3实施方式涉及的音响解析装置100的功能结构的框图。第3实施方式的音响解析装置100与第2实施方式同样地具有后处理部24。后处理部24通过对由音调推定模型22推定出的音调的时间序列Wa进行修正，从而生成时间序列Wb。第3实施方式的后处理部24利用音响信号V的和弦O的时间序列(例如，由第2处理部212推定出的和弦O的时间序列)，生成时间序列Wb。图12是第3实施方式涉及的后处理部24生成的时间序列Wb的说明图。具体而言，后处理部24与音响信号V的和弦O的时间序列相应地对音调区间I的端点(具体而言，起点S)进行变更。第3实施方式的后处理部24在包含音调区间I的起点S在内的区间(以下，称为“检索区间”)R的音响信号V的和弦O的时间序列存在与该音调区间I的音调信息H所表示的音调相对应的和弦(以下，称为“音调对应和弦”的情况下，将该音调区间I的起点S变更为与该音调对应和弦相对应的区间(典型的是持续区间U)的起点。关于检索区间R，例如将以音调区间I的起点S作为中心的多个(图12中6个)持续区间U，作为检索区间R进行例示。音调对应和弦例如是以音调的主音作为根音的和弦(典型的是主和弦Tonic chord)。在图12中，例示出如下情况，即，将推定出“Emajor”的音调区间I2的起点S变更为推定出针对检索区间R推定的多个和弦O中的和弦“E”的持续区间U的起点。

图13是例示出第3实施方式涉及的后处理部24对通过音调推定模型推定出的音调进行修正的处理(以下，称为“后处理2”)的具体流程的流程图。后处理部24在通过音调推定模型22推定出音调的时间序列Wa之后，例如以来自利用者的指示为契机而开始进行后处理2。如果开始进行后处理2，则后处理部24根据音调的时间序列Wa在时间轴上划分出多个音调区间I(Sc1)。即，确定出音调区间I的时间序列。后处理部24选择多个音调区间I的任意者(Sc2)。具体而言，从开头朝向末尾而依次选择音调区间I。

接着，后处理部24针对关于在步骤Sc2中选择出的音调区间I的检索区间R推定出的多个和弦(以下，称为“候补和弦”)，分别推算出该候补和弦和音调对应和弦之间的相似度(Sc3)。相似度是表示音调对应和弦的向量和表示候补和弦的向量之间的距离或相关性的指标。作为表示音调对应和弦或候补和弦的向量，例示出文献“山口直彦、管村昇，‘非調構成音を含む和音への対応を目的としたTPS(Tonal Pitch Space)の拡張－ジャズ音楽理論への適用を目指して－’，情報処理学会研究報告，2011年2月11日”所记载的基本空间函数(Basic space function)。接着，后处理部24对多个候补和弦中的与音调对应和弦的相似度最大的候补和弦进行检索(Sc4)。步骤Sc3以及步骤Sc4是如下处理，即，将与音调区间I的音调所表示的音调对应和弦最相似(典型的是一致)的1个候补和弦，从该音调区间I的检索区间R的多个候补和弦中进行检索。

后处理部24将音调区间I的起点S变更为与在步骤Sc4中检索出的候补和弦相对应的区间的起点(Sc5)。具体而言，将音调区间I的起点S变更为推定出该候补和弦的持续区间U的起点。此外，在音调区间I的开头的候补和弦的相似度最大的情况下，不变更音调区间I的起点S而维持。在针对全部的音调区间I分别执行了步骤Sc2～Sc6的处理的情况下(Sc6：YES)，控制装置11使由后处理部24生成的时间序列Wb显示于显示装置13(Sc7)。即，针对从时间序列Wa划分出的多个音调区间I分别变更或维持了起点S的时间序列Wb通过显示装置13进行显示。另一方面，在存在步骤Sc2中未选择的音调区间I的情况下(Sc6：NO)，后处理部24针对该未选择的音调区间I执行步骤Sc2～Sc6的处理。

在第3实施方式，也实现与第1实施方式相同的效果。在第3实施方式，由于与音响信号V的和弦O的时间序列对应地变更音调区间I的端点，因此能够考虑到和弦的时间变化而适当地对通过音调推定模型22推定出的音调进行修正。另外，在第3实施方式，在包含音调区间I的起点S在内的检索区间R的音响信号V的和弦的时间序列(即，多个候补和弦)存在以该音调区间I的音调信息H所表示的音调的主音作为根音的音调对应和弦的情况下，将该音调区间I的起点S变更为与该音调对应和弦相对应的区间的起点。因此，能够考虑到与音调区间I相对应的音响信号V的和弦O的时间序列的开头为以该音调的主音作为根音的和弦的可能性高的倾向，适当地对音调信息H进行修正。此外，也可以将第2实施方式的后处理1以及第3实施方式的后处理2进行组合。

＜变形例＞

以下例示出对以上所例示的各方式附加的具体变形的方式。也可以将从以下例示中任意选择出的多个方式在相互不矛盾的范围适当进行合并。

(1)在前述的各方式，例示出具有音调推定模型22和学习处理部23的音响解析装置100，但也可以在与音响解析装置100分体的信息处理装置(以下，称为“机器学习装置”)搭载学习处理部23。应用了由机器学习装置的学习处理部23设定的多个系数K的音调推定模型22被转送至音响解析装置100而利用于音调信息H的生成。如根据以上说明所理解的那样，可以从音响解析装置100省略学习处理部23。

(2)也可以通过在与便携式电话或智能手机等信息终端之间进行通信的服务器装置而实现音响解析装置100。例如，音响解析装置100通过从信息终端接收到的音响信号V的解析，生成音调信息H并发送至信息终端。此外，在根据音响信号V对特征量Y进行提取的特征提取部21搭载于信息终端的结构中，音响解析装置100通过将从信息终端接收到的特征量Y的时间序列输入至音调推定模型22，生成音调信息H，将该音调信息H发送至信息终端。如根据以上说明所理解的那样，也可以从音响解析装置100省略特征提取部21。

(3)在前述的各方式，也可以将在例如乐曲的乐谱中指定的已知的和弦O的时间序列利用于特征量Y的提取。第3处理部213根据由第1处理部211提取出的特征量X和已知的和弦O的时间序列而生成特征量Y。即，可以省略第2处理部212。在以上的结构中，将一并记载有已知的和弦O的时间序列和由音调推定模型22推定出的音调的时间序列的显示画面通过显示装置13进行显示。此外，已知的和弦O的时间序列事先存储于存储装置12。

(4)在前述的各方式，通过将每个持续区间U的特征量Y输入至音调推定模型22，而针对每个该持续区间U生成了音调信息H，但针对音调推定模型22的输入以及输出不限定于以上例示。例如，可以采用以下的[A]－[D]的结构。

[A]将由第1处理部211生成的每个单位期间T的特征量X的时间序列输入至音调推定模型22，由此针对每个该单位期间T而生成音调信息H。即，音调推定模型22对特征量X的时间序列和音调信息H之间的关系进行学习(训练)。此外，可以省略第2处理部212以及第3处理部213。

[B]将由第1处理部211生成的每个单位期间T的特征量X的时间序列和由第2处理部212生成的每个单位期间T的和弦O的时间序列输入至音调推定模型22，由此针对每个单位期间T而生成音调信息H。即，音调推定模型22对特征量X的时间序列以及和弦O的时间序列和音调信息H之间的关系进行学习(训练)。此外，可以省略第3处理部213。

[C]也可以将由第2处理部212生成的每个单位期间T的和弦O的时间序列输入至音调推定模型22，由此针对每个单位期间T而生成音调信息H。即，音调推定模型22对和弦O的时间序列和音调信息H之间的关系进行学习(训练)。可以省略第3处理部213。此外，在[B]以及[C]中，也可以将例如根据乐曲的已知的乐谱生成的和弦O的时间序列作为针对音调推定模型22的输入进行利用。

[D]将由第1处理部211生成的每个单位期间T的特征量X的时间序列和表示持续区间U的时间序列的数据(以下，称为“区间数据”)输入至音调推定模型22，由此针对每个持续区间U而生成音调信息H。即，音调推定模型22对特征量X的时间序列以及区间数据和音调信息H之间的关系进行学习(训练)。此外，可以省略第3处理部213。区间数据例如是表示持续区间U的边界的数据，例如可以根据由第2处理部212生成的和弦O的时间序列而生成，例如也可以作为根据乐曲的已知的乐谱生成的区间数据进行利用。

如根据以上说明所理解的那样，针对音调推定模型22的输入以及输出是任意的。此外，输入以及输出的单位可以相应于输入的种类而适当地变更。例如例示出每个持续区间U或每个单位期间T的输入以及输出。另外，也可以相应于针对音调推定模型22的输入而适当地对特征提取部21的结构进行变更。

(5)在前述的各方式，例示出包含以2值的方式表示多种音调的任意者的指标Q在内的音调信息H，但音调信息H的内容不限定于以上例示。例如，与各音调相对应的指标Q也可以作为表示乐曲的音调与该音调相符的似然度的音调信息H进行利用。表示似然度的指标Q设定为0以上且1以下的范围内的数值，遍及与互不相同的音调相对应的全部的音调范围的指标Q的合计值成为规定值(例如1)。另外，也可以是音调推定模型22生成用于识别多种音调的任意者的识别信息作为音调信息H。

(6)在前述的各方式，例示出包含色度向量和强度Pv在内的特征量X，但特征量X的内容不限定于以上例示。例如，也可以将色度向量单独地作为特征量Y进行利用。另外，例示出针对音响信号V中相对于规定的频率处于低频侧的频带成分和处于高频侧的频带成分而分别包含色度向量和强度Pv的特征量X，但也可以生成针对音响信号V的整体的频带而包含色度向量和强度Pv的特征量X。另外，同样地，特征量Y也可以针对音响信号V的整体的频带而包含与每个音阶音的成分强度Pq的时间序列相关的方差σq以及平均μq、和与音响信号V的强度Pv的时间序列相关的方差σv以及平均μv。

(7)在第3实施方式的后处理2，也可以考虑与音响信号V相对应的乐曲的音乐构造上的构造区间(例如A主歌、副歌，B主歌等的各乐句)。例如，存在音调针对每个构造区间而变化的倾向。利用以上的倾向，例如在构造区间的起点位于音调区间I的检索区间R内的情况下，也可以将该音调区间I的起点S变更为该构造区间的起点。

(8)在前述的各方式，显示出由音调推定模型22生成的音调信息H所表示的音调，但音调信息H的用途不限定于以上例示。在显示装置13所显示的和弦(由第2处理部212推定出的和弦)为例如利用者的演奏困难的和弦的情况下，存在想要将该和弦变更为简单的和弦的情况。考虑到以上的情况，也可以在由利用者进行的成为变更的候补的多个和弦的确定中利用由音调推定模型22推定出的音调。考虑到由音调推定模型22推定出的音调，将音响上相似的多个和弦作为变更的候补而进行确定。

(9)在前述的方式，音调推定模型推定出平均律的音调，但音调推定模型推定的作为音调的基础的音律不限定于平均律。例如，也可以由音调推定模型对印度音乐等民族音乐的音律的音调进行推定。

(10)前述的各方式涉及的音响解析装置100如在各方式所例示的那样，通过计算机(具体而言，控制装置11)和程序的协同动作而实现。前述的各方式涉及的程序能够以储存于计算机可读取的记录介质的方式提供并安装于计算机。记录介质例如是非临时性(non-transitory)的记录介质，优选例为CD-ROM等光学式记录介质(光盘)，但也可以包含半导体记录介质或者磁记录介质等公知的任意形式的记录介质。此外，非临时性的记录介质包含除了临时性的传输信号(transitory，propagating signal)之外的任意的记录介质，并非将易失性的记录介质除外。另外，还可以以经由通信网的传送的方式将程序提供给计算机。

此外，实现音调推定模型22的程序的执行主体不限定于CPU等通用的处理电路。例如，也可以由专用于张量处理单元(Tensor Processing Unit)或神经引擎(NeuralEngine)等人工智能的处理电路、或信号处理用的电子电路(DSP：Digital SignalProcessor)执行程序。另外，也可以由从以上例示选择出的多种主体协同动作而执行程序。

(11)训练好的模型(音调推定模型22)是通过控制装置(计算机的例示)实现的统计性推定模型(例如，神经网络)，生成与输入A相应的输出B。具体而言，训练好的模型通过使控制装置执行根据输入A而确定输出B的运算的程序(例如，构成人工智能软件的程序模块)、和在该运算应用的多个系数的组合而实现。训练好的模型的多个系数通过利用了使输入A和输出B相对应的多个教师数据的事先的机器学习(深度学习)进行优化。即，训练好的模型是对输入A和输出B之间的关系进行了学习(训练)的统计性推定模型。控制装置通过针对未知的输入A执行应用了训练好的多个系数和规定的响应函数的运算，从基于在多个教师数据潜在的倾向(输入A和输出B之间的关系)，针对输入A而生成统计性上合理的输出B。

(12)根据以上所例示的方式，例如可以掌握以下结构。

本发明的方式(第1方式)涉及的音响解析方法将音响信号的特征量的时间序列输入至对音响信号的特征量的时间序列和音调之间的关系进行了学习的训练好的模型，由此生成表示音调的音调信息。根据以上方式，将音响信号的特征量输入至对音响信号的特征量和音调之间的关系进行了学习的训练好的模型，由此生成表示音调的音调信息，因此与按照规定的规则生成乐曲的音调信息的结构相比，能够高精度地对音调进行推定。

在第1方式的一个例子(第2方式)，针对相同和弦持续的每个持续区间，将所述音响信号的特征量输入至所述训练好的模型，由此针对每个该持续区间而生成所述音调信息。根据以上方式，通过针对相同和弦持续的每个持续区间，将音响信号的特征量输入至训练好的模型，从而针对每个该持续区间而生成音调信息，因此，能够考虑到在相同和弦持续的持续区间内音调不发生变化的倾向而高精度地对音调信息进行推定。

在第2方式的一个例子(第3方式)，各持续区间的所述特征量针对每个音阶音而包含下述指标，该指标是所述音响信号中与音阶音相对应的成分强度关于该持续区间的时间变化。根据以上方式，将针对每个音阶音而包含音响信号中与音阶音相对应的成分强度的与持续区间的时间变化相关的指标的特征量，针对每个持续区间而输入至训练好的模型，因此，能够考虑到音响信号的时间变化而高精度地对音调信息进行推定。

在第1方式的一个例子(第4方式)，所述特征量针对每个音阶音而包含将所述音响信号中与音阶音相对应的成分强度遍及多个八度音相加得到的成分强度。根据以上方式，将针对每个音阶音而包含将音响信号中与音阶音相对应的成分强度遍及多个八度音相加得到的成分强度的特征量输入至训练好的模型，因此，具有如下优点，即，能够利用适当地反映出音响信号所表示的乐曲的和弦的特征量，高精度地对音调信息进行推定。

在第1方式至第4方式的任意的一个例子(第5方式)，在所述音调信息所表示的音调连续的音调区间的时间长度小于规定值的情况下，将该音调区间的音调置换为紧随该音调区间之前或紧随该音调区间之后的音调区间的音调信息所表示的音调。根据以上方式，在音调信息所表示的音调连续的音调区间的时间长度小于规定值的情况下，将该音调区间的音调置换为紧随该音调区间之前或紧随该音调区间之后的音调区间的音调信息所表示的音调。因此，能够考虑到音调在短期间发生变化的可能性低这一倾向，适当地对通过训练好的模型推定出的音调进行修正。

在第1方式至第5方式的任意的一个例子(第6方式)，与音响信号的和弦的时间序列相应地对所述音调信息所表示的音调连续的音调区间的端点进行变更。根据以上方式，与音响信号的和弦的时间序列相应地对音调信息所表示的音调连续的音调区间的端点进行变更，因此，能够考虑到和弦的时间变化而适当地对通过训练好的模型推定出的音调进行修正。

在第6方式的一个例子(第7方式)，在包含所述音调区间的起点在内的检索区间的音响信号的和弦的时间序列存在以该音调区间的音调信息所表示的音调的主音作为根音的和弦的情况下，将该音调区间的起点变更为与该和弦相对应的区间的起点。根据以上方式，在包含音调区间的起点在内的检索区间的音响信号的和弦的时间序列存在与以该音调区间的音调信息所表示的音调的主音作为根音的和弦在音响上相似的和弦(理想情况是一致的和弦)的情况下，将该音调区间的起点变更为与该和弦相对应的区间的起点。因此，能够考虑到与音调区间相对应的音响信号的和弦的时间序列的开头是与以该音调的主音作为根音的和弦在音响方面相似的和弦(理想情况是一致的和弦)的可能性高这一倾向，适当地对音调信息进行修正。

本发明的方式(第8方式)涉及的音响解析装置具有：存储装置，其存储程序，该程序实现根据音响信号的特征量的时间序列的输入而生成表示音调的音调信息的音调推定模型，该音调推定模型是对音响信号的特征量的时间序列和音调之间的关系进行了学习的训练好的模型；以及控制装置，其通过执行所述程序而实现所述音调推定模型。根据以上方式，将音响信号的特征量输入至对音响信号的特征量和音调之间的关系进行了学习(训练)的训练好的模型，由此生成表示音调的音调信息，因此与按照规定的规则而生成乐曲的音调信息的结构相比，能够高精度地对音调进行推定。

本申请基于在2019年1月11日申请的日本专利申请(特愿2019－3324)，在此参照并引入其内容。

标号的说明

100…音响解析装置、11…控制装置、12…存储装置、13…显示装置、21…特征提取部、211…处理部、212…处理部、213…处理部、22…音调推定模型、23…学习处理部、24…后处理部。

Claims

1.一种音响解析方法，其是通过计算机实现的，

将音响信号的特征量的时间序列输入至对音响信号的特征量的时间序列和音调之间的关系进行了学习的训练好的模型，由此生成表示音调的音调信息，

针对相同和弦持续的每个持续区间将所述音响信号的特征量输入至所述训练好的模型，由此针对每个该持续区间而生成所述音调信息。

2.根据权利要求1所述的音响解析方法，其中，

各持续区间的所述特征量针对每个音阶音而包含所述音响信号中与音阶音相对应的成分强度的与该持续区间的时间变化相关的指标。

3.根据权利要求1所述的音响解析方法，其中，

所述特征量针对每个音阶音而包含将所述音响信号中与音阶音相对应的成分强度遍及多个八度音相加得到的成分强度。

4.根据权利要求1至3中任一项所述的音响解析方法，其中，

在所述音调信息所表示的音调连续的音调区间的时间长度小于规定值的情况下，将该音调区间的音调置换为紧随该音调区间之前或紧随该音调区间之后的音调区间的音调信息所表示的音调。

5.根据权利要求1至3中任一项所述的音响解析方法，其中，

与音响信号的和弦的时间序列相应地对所述音调信息所表示的音调连续的音调区间的端点进行变更。

6.根据权利要求4所述的音响解析方法，其中，

7.根据权利要求5所述的音响解析方法，其中，

在包含所述音调区间的起点在内的检索区间的音响信号的和弦的时间序列存在以该音调区间的音调信息所表示的音调的主音作为根音的和弦的情况下，将该音调区间的起点变更为与该和弦相对应的区间的起点。

8.一种音响解析装置，其具有：

存储装置，其存储程序，该程序实现根据音响信号的特征量的时间序列的输入而生成表示音调的音调信息的音调推定模型，该音调推定模型是对音响信号的特征量的时间序列和音调之间的关系进行了学习的训练好的模型；以及

控制装置，其通过执行所述程序而实现所述音调推定模型，

所述控制装置针对相同和弦持续的每个持续区间将所述音响信号的特征量输入至所述训练好的模型，由此针对每个该持续区间而生成所述音调信息。

9.根据权利要求8所述的音响解析装置，其中，

10.根据权利要求8所述的音响解析装置，其中，

11.根据权利要求8至10中任一项所述的音响解析装置，其中，

所述控制装置在所述音调信息所表示的音调连续的音调区间的时间长度小于规定值的情况下，将该音调区间的音调置换为紧随该音调区间之前或紧随该音调区间之后的音调区间的音调信息所表示的音调。

12.根据权利要求8至10中任一项所述的音响解析装置，其中，

所述控制装置与音响信号的和弦的时间序列相应地对所述音调信息所表示的音调连续的音调区间的端点进行变更。

13.根据权利要求11所述的音响解析装置，其中，

14.根据权利要求12所述的音响解析装置，其中，

所述控制装置在包含所述音调区间的起点在内的检索区间的音响信号的和弦的时间序列存在以该音调区间的音调信息所表示的音调的主音作为根音的和弦的情况下，将该音调区间的起点变更为与该和弦相对应的区间的起点。