CN116868264A

CN116868264A - 音响解析方法、音响解析系统及程序

Info

Publication number: CN116868264A
Application number: CN202280015307.1A
Authority: CN
Inventors: 山本和彦
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2021-02-25
Filing date: 2022-02-18
Publication date: 2023-10-10
Also published as: JP2022129742A; CN116917981A

Abstract

音响解析系统(100)具有：解析处理部(20)，其通过表示乐曲的演奏音的音响信号(A)的解析而推定乐曲的多个拍点；指示接受部(26)，其针对多个拍点之中的一部分的拍点而从利用者接受位置的变更的指示；以及拍点更新部，其与来自利用者的指示相对应地，对所述多个拍点的位置进行更新。

Description

音响解析方法、音响解析系统及程序

技术领域

本发明涉及对音响信号进行解析的技术。

背景技术

以往提出有通过对表示乐曲的演奏音的音响信号进行解析而推定该乐曲的拍点(节拍Beat)的解析技术。例如，在专利文献1中公开了利用隐马尔可夫模型等概率模型对乐曲的拍点进行推定的技术。

专利文献1：日本特开2015－114361号公报

发明内容

在对乐曲的拍点进行推定的现有的技术中，例如有可能将乐曲的弱拍误推定为拍点、或者误推定为与乐曲的本来的节奏的2倍的节奏对应的拍点。另外，还有可能如在利用者期待着强拍的推定的状况下推定出乐曲的弱拍的情况这样，拍点的推定结果不符合利用者的意图。考虑到以上的情况，利用者能够对根据音响信号推定出的多个拍点的时间轴上的位置进行变更的结构是重要的。但是，存在以下问题，即，利用者在希望的时间点对乐曲的整体范围的各个拍点进行变更的作业的负荷过大。考虑到以上的情况，本发明的一个方式的一个目的在于，减轻利用者对各拍点的位置的变更进行指示的负荷，并且取得符合该利用者的意图的拍点的时间序列。

为了解决以上的课题，本发明的一个方式涉及的音响解析系统，通过表示乐曲的演奏音的音响信号的解析而推定所述乐曲的多个拍点，针对所述多个拍点之中的一部分的拍点而从利用者接受位置的变更的指示，与来自所述利用者的指示相对应地对所述多个拍点的位置进行更新。

本发明的一个方式涉及的音响解析系统具有：解析处理部，其通过表示乐曲的演奏音的音响信号的解析而推定所述乐曲的多个拍点；指示接受部，其针对所述多个拍点之中的一部分的拍点而从利用者接受位置的变更的指示；以及拍点更新部，其与来自所述利用者的指示相对应地，对所述多个拍点的位置进行更新。

本发明的一个方式涉及的程序使计算机系统作为下述功能部起作用：解析处理部，其通过表示乐曲的演奏音的音响信号的解析而推定所述乐曲的多个拍点；指示接受部，其针对所述多个拍点之中的一部分的拍点而从利用者接受位置的变更的指示；以及拍点更新部，其与来自所述利用者的指示相对应地，对所述多个拍点的位置进行更新。

附图说明

图1是例示出第1实施方式涉及的音响解析系统的结构的模块图。

图2是例示出音响解析系统的功能性结构的模块图。

图3是特征提取部生成特征数据的动作的说明图。

图4是例示出推定模型的结构的模块图。

图5是创建推定模型的机器学习的说明图。

图6是例示出概率计算处理的具体流程的流程图。

图7是状态转变模型的说明图。

图8是拍点推定处理的说明图。

图9是例示出拍点推定处理的具体流程的流程图。

图10是解析画面的示意图。

图11是推定模型更新处理的说明图。

图12是例示出推定模型更新处理的具体流程的流程图。

图13是例示出由控制装置执行的处理的具体流程的流程图。

图14是例示出初始解析处理的具体流程的流程图。

图15是例示出拍点更新处理的具体流程的流程图。

图16是例示出第2实施方式的音响解析系统的功能性结构的模块图。

图17是第2实施方式的解析画面的示意图。

图18是推定节奏曲线、最大节奏曲线及最初节奏曲线的说明图。

图19是例示出第2实施方式的拍点推定处理的具体流程的流程图。

图20是在第3实施方式中生成输出数据的处理的说明图。

具体实施方式

A：第1实施方式

图1是例示出第1实施方式涉及的音响解析系统100的结构的模块图。音响解析系统100是通过表示乐曲的演奏音的音响信号A的解析而推定该乐曲的多个拍点的计算机系统。音响解析系统100具有控制装置11、存储装置12、显示装置13、操作装置14和放音装置15。音响解析系统100例如通过智能手机或平板终端等可移动型的信息装置、或个人计算机等可移动型或固定型的信息装置而实现。此外，音响解析系统100除了作为单体的装置而实现以外，还可以由彼此分体地构成的多个装置实现。

控制装置11由对音响解析系统100的各要素进行控制的单个或多个处理器构成。例如，控制装置11由CPU(Central Processing

Unit)、SPU(Sound Processing Unit)、DSP(Digital Signal Processor)、

FPGA(Field Programmable Gate Array)、或ASIC(Application

Specific Integrated Circuit)等1种以上的处理器构成。

存储装置12是对控制装置11执行的程序和控制装置11使用的各种数据进行存储的单个或多个存储器。存储装置12例如由磁记录介质或半导体记录介质等公知的记录介质、或多种记录介质的组合构成。此外，也可以将相对于音响解析系统100可拆装的可移动型的记录介质、或例如能够经由互联网等通信网而由控制装置11执行写入或读出的记录介质(例如，云存储)作为存储装置12进行利用。

存储装置12对音响信号A进行存储。音响信号A是表示乐曲的演奏音的波形的样本序列。具体而言，音响信号A表示乐曲的乐器音及歌唱音中的至少一者。音响信号A的数据形式是任意的。此外，可以从与音响解析系统100分体的信号供给装置将音响信号A供给至音响解析系统100。信号供给装置例如是将在记录介质记录的音响信号A供给至音响解析系统100的播放装置、或将从传送装置(图示略)经由通信网而接收到的音响信号A供给至音响解析系统100的通信设备。

显示装置13基于控制装置11的控制对图像进行显示。例如，液晶显示面板或有机EL(Electroluminescence)面板等各种显示面板作为显示装置13进行利用。此外，可以将与音响解析系统100分体的显示装置13以有线或无线的方式与音响解析系统100连接。操作装置14是接受来自利用者的指示的输入设备。操作装置14例如是利用者操作的操作件、或对利用者的接触进行检测的触摸面板。

放音装置15基于控制装置11的控制对音响进行播放。例如，扬声器或耳机作为放音装置15进行利用。此外，可以将与音响解析系统100分体的放音装置15以有线或无线的方式与音响解析系统100连接。

图2是例示出音响解析系统100的功能性结构的模块图。控制装置11通过执行在存储装置12存储的程序，而实现用于对音响信号A进行处理的多个功能(解析处理部20、显示控制部24、播放控制部25、指示接受部26及推定模型更新部27)。

解析处理部20通过音响信号A的解析而推定乐曲内的多个拍点。具体而言，解析处理部20根据音响信号A而生成拍点数据B。拍点数据B是表示乐曲内的各拍点的数据。具体而言，拍点数据B是针对乐曲内的多个拍点各自而指定该拍点的时刻的时间序列数据。例如，将音响信号A的起点作为基准的各拍点的时刻由拍点数据B进行指定。第1实施方式的解析处理部20具有特征提取部21、概率计算部22和推定处理部23。

[特征提取部21]

图3是特征提取部21的动作的说明图。特征提取部21针对时间轴上的M个时间点(以下，称为“解析时间点”)t[m]各自而生成音响信号A的特征量f[m](m＝1～M)。各解析时间点t[m]是以规定的间隔在时间轴上设定的时间点。特征量f[m]是表示音响信号A的音响特征的指标。具体而言，利用具有在拍点的前后显著地变动的倾向的特征量f[m]。例如，音量及振幅等与音响信号A的强度相关的信息作为特征量f[m]而例示。另外，例如MFCC(Mel－Frequency Cepstrum Coefficients)，MSLS(Mel－Scale Log Spectrum)、或恒Q变换(CQT：Constant－Q Transform)等与音响信号A的频率特性(音色)相关的信息也作为特征量f[m]进行利用。其中，特征量f[m]的种类不限定于以上的例示。另外，特征量f[m]也可以是与音响信号A相关的多种信息的组合。

特征提取部21针对每个解析时间点t[m]而生成特征数据F[m]。与任意的解析时间点t[m]对应的特征数据F[m]是包含该解析时间点t[m]在内的期间(以下，称为“单位期间”)U内的多个特征量f[m]的时间序列。在图3中，例示出1个单位期间U包含将第m个解析时间点t[m]作为中心的5个解析时间点t[m－2]～t[m+2]的情况。因此，特征数据F[m]是单位期间U内的5个特征量f[m－2]～f[m+2]的时间序列。此外，单位期间U可以仅包含1个解析时间点[m]。即，特征数据F[m]可以仅由1个特征量f[m]构成。如根据以上的说明所理解的那样，特征提取部21针对每个解析时间点t[m]而生成包含音响信号A的特征量f[m]在内的特征数据F[m]。

[概率计算部22]

图2的概率计算部22根据特征数据F[m]而生成表示各解析时间点t[m]属于乐曲的拍点的概率P[m]的输出数据O[m]。输出数据O[m]的生成在每个解析时间点t[m]反复进行。概率P[m]越大，则解析时间点t[m]属于拍点的似然度越高。在由概率计算部22进行输出数据O[m]的生成时，利用推定模型50。

在音响信号A的各解析时间点t[m]的特征数据F[m]和该解析时间点t[m]属于拍点的似然度之间存在相关性。推定模型50是对以上的相关性进行了学习的统计模型。具体而言，推定模型50是通过机器学习对特征数据F[m]和输出数据O[m]之间的关系进行了学习(训练)的训练好的模型。

推定模型50例如由深度神经网络(DNN：Deep Neural Network)构成。推定模型50通过使控制装置11执行根据特征数据F[m]而生成输出数据O[m]的运算的程序和应用于该运算的多个变量(具体而言，加权值及偏差)的组合而实现。实现推定模型50的程序及多个变量存储于存储装置12。对推定模型50进行规定的多个变量各自的数值是通过机器学习而事先设定的。

图4是例示出推定模型50的具体结构的模块图。推定模型50由包含输入层51、多个中间层52(52a、52b)和输出层53在内的卷积网络构成。1个特征数据F[m]所包含的多个特征量f[m－2]～f[m+2]并行地输入至输入层51。

多个中间层52是位于输入层51和输出层53之间的隐藏层。多个中间层52包含多个中间层52a和多个中间层52b。多个中间层52a位于输入层51和多个中间层52b之间。各中间层52a例如由卷积层和池化(pooling)层的组合构成。各中间层52b例如是将ReLU设为激活函数的全结合层。输出层53将输出数据O[m]输出。

推定模型50划分为第1部分50a和第2部分50b。第1部分50a是推定模型50之中的输入侧的部分。具体而言，第1部分50a是由输入层51和多个中间层52a构成的前半部分。第2部分50b是推定模型50之中的输出侧的部分。具体而言，第2部分50b是由多个中间层52b和输出层53构成的后半部分。第1部分50a是生成与特征数据F[m]相对应的中间数据D[m]的部分。中间数据D[m]是表示特征数据F[m]的特征的数据。具体而言，中间数据D[m]是表示有利于针对特征数据F[m]而输出统计上合理的输出数据O[m]的特征的数据。第2部分50b是生成与中间数据D[m]相对应的输出数据O[m]的部分。

图5是创建推定模型50的机器学习的说明图。例如通过由与音响解析系统100分体的机器学习系统200进行的机器学习而创建推定模型50，该推定模型50提供给音响解析系统100。例如，从机器学习系统200对音响解析系统100发送推定模型50。

对于推定模型50的机器学习，利用多个学习数据Z。多个学习数据Z各自由学习用的特征数据Ft和学习用的输出数据Ot的组合构成。特征数据Ft表示为了学习用而准备的音响信号A之中的特定的时间点的特征量。具体而言，特征数据Ft与前述的特征数据F[m]相同地，由与时间轴上的不同的时间点对应的多个特征量的时间序列构成。与特定的时间点对应的学习用的输出数据Ot是表示该时间点属于乐曲的拍点的概率的数据(即，正确值)。针对已知的多个乐曲而准备多个学习数据Z。

机器学习系统200对误差函数进行计算，该误差函数表示在输入了各学习数据Z的特征数据Ft时由初始的或临时的模型(以下，称为“临时模型”)59输出的输出数据O[m]和该学习数据Z的输出数据Ot之间的误差。而且，机器学习系统200对临时模型59的多个变量进行更新，以使得误差函数减小。针对多个学习数据Z各自而反复进行了以上的处理的时间点的临时模型59被确定为推定模型50。

因此，推定模型50基于在多个学习数据Z的特征数据Ft和输出数据Ot之间潜在的关系，输出针对未知的特征数据F[m]而统计上合理的输出数据O[m]。即，推定模型50是对与时间轴上的各时间点对应的学习用的特征数据Ft和表示该时间点属于拍点的概率的学习用的输出数据Ot之间的关系进行了学习的训练好的模型。概率计算部22通过对按以上的流程创建出的推定模型50输入各解析时间点t[m]的特征数据F[m]，由此生成表示该解析时间点t[m]属于拍点的概率P[m]的输出数据O[m]。

图6是例示出概率计算部22执行的处理(以下，称为“概率计算处理”)Sa的具体流程的流程图。通过由控制装置11作为概率计算部22起作用而执行概率计算处理Sa。

如果开始概率计算处理Sa，则概率计算部22将与解析时间点t[m]对应的特征数据F[m]输入至推定模型50(Sa1)。概率计算部22取得由推定模型50的第1部分50a输出的中间数据D[m]，将该中间数据D[m]保存于存储装置12(Sa2)。另外，概率计算部22取得由推定模型50(第2部分50b)输出的输出数据O[m]，将该输出数据O[m]保存于存储装置12(Sa3)。

概率计算部22对是否针对乐曲内的M个解析时间点t[1]～t[M]执行了以上的处理进行判定(Sa4)。在判定结果为否定的情况下(Sa4：NO)，概率计算部22针对未处理的解析时间点t[m]而执行中间数据D[m]及输出数据O[m]的生成(Sa1～Sa3)。在针对M个解析时间点t[1]～t[M]执行了处理的情况下(Sa4：YES)，概率计算部22将概率计算处理Sa结束。如根据以上的说明所理解的那样，概率计算处理Sa的结果、与不同的解析时间点t[m]对应的M个中间数据D[1]～D[M]、和与不同的解析时间点t[m]对应的M个输出数据O[1]～O[M]保存于存储装置12。

[推定处理部23]

图2的推定处理部23根据由概率计算部22针对不同的解析时间点t[m]计算出的M个输出数据O[m]，对乐曲内的多个拍点进行推定。具体而言，推定处理部23如前述那样，生成表示乐曲内的各拍点的时刻的拍点数据B。在由概率计算部22进行拍点数据B的生成时，利用状态转变模型60。

图7是例示出状态转变模型60的结构的模块图。状态转变模型60是由多个(N个)状态Q构成的统计模型。具体而言，状态转变模型60由隐半马尔可夫模型(HSMM：HiddenSemi－Markov Model)构成，通过动态计划法的一个例子即维特比(Viterbi)算法而推定多个拍点。

在图7图示出时间轴上的拍点。在时间轴上相前后的2个拍点的间隔(以下，称为“拍间隔”)δ的时间长度是与乐曲的节奏(tempo)相对应的可变值。具体而言，节奏越快则拍间隔δ越短。在拍间隔δ内设定多个时间点(以下，称为“经过点”)Y[j]。各经过点Y[i](i＝1～4)是将拍点作为基准而在时间轴上设定的时间点。具体而言，经过点Y[0]是与拍点相当的时间点(拍起点)，经过点Y[1]～Y[4]是将拍间隔δ进行等分的各时间点。经过点Y[3]位于经过点Y[4]的后方，经过点Y[2]位于经过点Y[3]的后方，经过点Y[1]位于经过点Y[2]的后方。经过点Y[0]与拍间隔δ的端点(起点或终点)相当。从各拍点(经过点Y[0])至各经过点Y为止的时间长度还可以表现为将拍点作为基准的相位这一含义。例如，时间以经过点Y[4]→经过点Y[3]→经过点Y[2]→经过点Y[1]这一顺序行进，在经过了经过点Y[1]后到达经过点Y[0](拍点)。

状态转变模型60的N个状态Q各自与多个节奏X[i](i＝1，2，3，…)的任一者对应。具体而言，N个状态Q与多个节奏X[i]各自和多个经过点Y[0]～Y[4]各自的不同的组合对应。即，针对各节奏X[i]而存在与不同的经过点Y[j]对应的5个状态Q的时间序列。在以下的说明中，有时将与节奏X[i]和经过点Y[j]的组合对应的状态Q记作“状态Q[i，j]”。另一方面，在不特别关注节奏X[i]及经过点Y[j]的区别的情况下，简记作“状态Q”。此外，还可以省略由经过点Y[j]引起的状态Q的区别。即，还设想到多个状态Q各自与不同的节奏X[i]对应的方式。在不对经过点Y[j]进行区别的方式中，例如隐马尔可夫模型(HMM：Hidden MarkovModel)作为状态转变模型60进行利用。

在第1实施方式中，假定仅在时间轴上的拍点(即经过点Y[0])处节奏X发生变化。基于以上的假定，与除了经过点Y[0]以外的各经过点Y[j]对应的状态Q[i，j]仅转变为与后一个的经过点Y[j－1]对应的状态Q[i，j－1]。例如，状态Q[i，4]转变为状态Q[i，3]，状态Q[i，3]转变为状态Q[i，2]，状态Q[i，2]转变为状态Q[i，1]。另一方面，在与拍点相当的状态Q[i，0]，产生从与不同的节奏X[i]对应的多个状态Q[i，1](Q[1，1]，Q[2，1]，Q[3，1]，…)起的转变。

图8是由推定处理部23利用状态转变模型60而推定乐曲内的多个拍点的处理(以下，称为“拍点推定处理”)Sb的说明图。另外，图9是例示出拍点推定处理Sb的具体流程的流程图。控制装置11通过作为推定处理部23起作用而执行拍点推定处理Sb。

如果开始拍点推定处理Sb，推定处理部23针对M个解析时间点t[1]～t[M]各自而计算观测似然度Λ[m](Sb1)。各解析时间点t[m]的观测似然度Λ[m]设定为与该解析时间点t[m]的输出数据O[m]表示的概率P[m]相对应的数值。例如，观测似然度Λ[m]设定为输出数据O[m]表示的概率P[m]、或以针对该概率P[m]的规定运算而计算出的数值。

推定处理部23针对状态转变模型60的各状态Q[i，j]，在每个解析时间点t[m]对路径p[i，j]和似然度λ[i，j]进行计算(Sb2)。路径p[i，j]是从其他状态Q到达状态Q[i，j]的路径，似然度λ[i，j]是观察该状态Q[i，j]的准确度的指标。

如前述那样，在与任意的节奏X[i]对应的多个状态Q[i，0]～Q[i，4]之间仅产生一个方向的转变。因此，如根据图8所理解的那样，例如在解析时间点t[m]到达与节奏X[1]和经过点Y[1]对应的状态Q[1，1]的路径p[1，1]仅是从与该节奏X[1]和前一个的经过点Y[2]对应的状态Q[1，2]起的路径p。另外，解析时间点t[m]的状态Q[1，1]的似然度λ[1，1]设定为与时间点t1对应的似然度，该时间点t1是从解析时间点t[m]回推了与该节奏X[1]对应的时间长度d[1]得到的。具体而言，状态Q[1，1]的似然度λ[1，1]通过时间点t1的前一个的解析时间点t[mA]的观测似然度Λ[mA]和该时间点t1的后一个的解析时间点t[mB]的观测似然度Λ[mB]之间的插补(例如线性插补)进行计算。

另一方面，在经过点Y[0]存在节奏X[i]发生变化的可能性。因此，如根据图8所理解的那样，例如，从与不同的节奏X[i]对应的多个状态Q[i，1]各自起，分别独立的路径p到达与节奏X[1]和经过点Y[0]对应的状态Q[1，0]。例如，除了从与该节奏X[1]和前一个的经过点Y[1]的组合对应的状态Q[1，1]起的路径p1以外，从与节奏X[2]和前一个的经过点Y[1]的组合对应的状态Q[2，1]起的路径p2也到达状态Q[1，0]。与从状态Q[1，1]向状态Q[1，0]的路径p1相关的似然度λ1与前述的例示相同地，通过时间点t1的前一个的解析时间点t[mA]的观测似然度Λ[mA]和该时间点t1的后一个的解析时间点t[mB]的观测似然度Λ[mB]之间的插补(例如线性插补)进行计算。另外，与从状态Q[2，1]向状态Q[1，0]的路径p2相关的似然度λ2设定为时间点t2的似然度，该时间点t2是以与状态Q[2，1]的节奏X[2]对应的时间长度d[2]从解析时间点t[m]回推得到的。具体而言，似然度λ2通过时间点t2的前一个的解析时间点t[mC]的观测似然度Λ[mC]和该时间点t2的后一个的解析时间点t[mA]的观测似然度Λ[mA]之间的插补(例如线性插补)进行计算。推定处理部23选择针对不同的节奏X[i]而计算出的多个似然度λ(λ1，λ2，…)的最大值，作为解析时间点t[m]的状态Q[1，0]的似然度λ[1，0]，将与到达状态Q[1，0]的多个路径p(p1，p2，…)之中的与该似然度λ[1，0]对应的路径p确定为至状态Q[1，0]为止的路径p[1，0]。通过以上的流程，针对N个状态Q各自而计算路径p[i，j]和似然度λ[i，j]的处理是沿时间轴的正向而在每个解析时间点t[m]执行的。即，针对M个解析时间点t[1]～t[M]各自而计算各状态Q的路径p[i，j]及似然度λ[i，j]。

推定处理部23生成与不同的解析时间点t[m]对应的M个状态Q的时间序列(以下，称为“状态序列”)(Sb3)。具体而言，推定处理部23根据与针对乐曲的最后的解析时间点t[M]而计算出的N个似然度λ[i，j]的最大值对应的状态Q[i，j]，沿时间轴的反方向而按顺序将路径p[i，j]连结，根据位于连结后的一系列路径(即，最优路径)上的M个状态Q而生成状态序列。即，生成将N个状态Q之中的似然度λ[i，j]大的状态Q针对每个解析时间点t[m]而排列的序列，作为状态序列。

推定处理部23将观测构成状态序列的M个状态Q之中的、与经过点Y[0]对应的状态Q的各解析时间点t[m]推定为拍点，生成对各拍点的时刻进行指定的拍点数据B(Sb4)。如根据以上的说明所理解的那样，将输出数据O[m]表示的概率P[m]高且在听觉上节奏自然地转变的解析时间点t[m]推定为乐曲内的拍点。

如以上所述，在第1实施方式中，通过将每个解析时间点t[m]的特征数据F[m]输入至推定模型50，生成每个解析时间点t[m]的输出数据O[m]，根据该输出数据O[m]而推定多个拍点。因此，能够基于学习用的特征数据Ft和学习用的输出数据Ot之间潜在的关系，针对未知的特征数据F[m]生成统计上合理的输出数据O[m]。解析处理部20的结构的具体例如以上所述。

图2的显示控制部24使显示装置13对图像进行显示。具体而言，显示控制部24使图10的解析画面70显示于显示装置13。解析画面70是表示解析处理部20对音响信号A进行解析的结果的图像。

解析画面70包含第1区域71和第2区域72。在第1区域71显示音响信号A的波形711。在第2区域72显示音响信号A之中的与在第1区域71中指定出的一部分的期间(以下，称为“指定期间”)712相关的解析的结果。第2区域72包含波形区域73、概率区域74和拍点区域75。

对波形区域73、概率区域74和拍点区域75设定共通的时间轴。在波形区域73显示音响信号A之中的指定期间712内的波形731和音响信号A的发音点(起点)732。在概率区域74显示各解析时间点t[m]的输出数据O[m]表示的概率P[m]的时间序列741。此外，输出数据O[m]表示的概率P[m]的时间序列741可以以与音响信号A的波形731叠加的方式显示于波形区域73内。

在拍点区域75显示通过音响信号A的解析而推定出的乐曲内的多个拍点。具体而言，与乐曲内的不同的拍点对应的多个拍图像751的时间序列显示于拍点区域75。与乐曲内的多个拍点之中的满足规定的条件的1个以上的拍点(以下，称为“修正候补点”)对应的拍图像751以与其他拍图像751不同的显示方式进行强调显示。修正候补点是利用者对变更进行指示的可能性高的拍点。

图2的播放控制部25控制由放音装置15进行的音响的播放。具体而言，播放控制部25使放音装置15对音响信号A表示的演奏音进行播放。播放控制部25与音响信号A的播放并行地，在与多个拍点各自对应的时间点对规定的通知音进行播放。另外，显示控制部24将拍点区域75内的多个拍图像751之中的与放音装置15进行播放的时间点对应的1个拍图像751，以与拍点区域75内的其他拍图像751不同的显示方式进行强调显示。即，与音响信号A的播放并行地，多个拍图像751各自按照时间序列的顺序依次进行强调显示。

但是，在根据音响信号A而推定乐曲内的多个拍点的处理中，有可能将例如乐曲的弱拍误推定为拍点。另外，还有可能如在利用者期待着强拍的推定的状况下推定出乐曲的弱拍的情况这样，推定出拍点的结果不符合利用者的意图。利用者有可能通过对操作装置14进行操作而针对乐曲内的多个拍点之中的任意的拍点对时间轴上的位置的变更进行指示。具体而言，利用者通过使拍点区域75内的多个拍图像751的任意者沿时间轴的方向移动，从而对与该拍图像751对应的拍点的位置的变更进行指示。利用者例如针对多个拍点之中的修正候补点对位置的变更进行指示。

图2的指示接受部26从利用者接受与乐曲内的多个拍点之中的一部分的拍点相关的位置的变更的指示(以下，称为“变更指示”)。在以下的说明中，设想指示接受部26接受到将1个拍点从时间轴上的解析时间点t[m1]移动至解析时间点t[m2]的变更指示的情况(m1，m2＝1～M，m1≠m2)。解析时间点t[m1]是解析处理部20初始推定出的拍点(即，基于变更指示进行变更前的拍点)，解析时间点t[m2]是基于来自利用者的变更指示进行变更后的拍点。

图2的推定模型更新部27与利用者的变更指示相对应地对推定模型50进行更新。具体而言，推定模型更新部27对推定模型50进行更新，以使得将与变更指示涉及的拍点的变更反映于乐曲的整体范围的多个拍点的推定中。

图11是推定模型更新部27对推定模型50进行更新的处理(以下，称为“推定模型更新处理”)Sc的说明图。推定模型更新处理Sc是对由机器学习系统200训练好的推定模型50进行更新，以反映出来自利用者的变更指示的处理(追加学习)。

在推定模型更新处理Sc中，在推定模型50的第1部分50a和第2部分50b之间追加适应模块55。适应模块55例如由将激活函数被初始化为恒等函数的注意力模块(attention)构成。因此，初始的适应模块55将从第1部分50a输出的中间数据D[m]不进行变更地供给至第2部分50b。

推定模型更新部27将变更前的拍点所处的解析时间点t[m1]的特征数据F[m1]和变更后的拍点所处的解析时间点t[m2]的特征数据F[m2]分别对第1部分50a(输入层51)依次进行输入。第1部分50a生成与特征数据F[m1]对应的中间数据D[m1]和与特征数据F[m2]对应的中间数据D[m2]。中间数据D[m1]及中间数据D[m2]各自被依次输入至适应模块55。

另外，推定模型更新部27将在前一个的概率计算处理Sa(Sa2)中计算出的M个中间数据D[1]～D[M]各自对适应模块55依次进行供给。即，与乐曲内的M个解析时间点t[1]～t[M]之中的变更指示涉及的一部分的解析时间点t[m]对应的中间数据D[m](D[m1]，D[m2])、和乐曲的整体范围的M个中间数据D[1]～D[M]各自被输入至适应模块55。适应模块55对与变更指示涉及的解析时间点t[m]对应的中间数据D[m](D[m1]，D[m2])和从推定模型更新部27供给的中间数据D[m]之间的相似度进行计算。

如前述那样，解析时间点t[m2]是在前一个的概率计算处理Sa中被推定为不属于拍点但根据变更指示被指示为拍点的时间点。即，解析时间点t[m2]的输出数据O[m2]表示的概率P[m2]即使在前一个的概率计算处理Sa中被设定为小的数值，但基于利用者的变更指示却应当设定为接近1的数值。并且，不仅是解析时间点t[m2]，对于乐曲内的M个解析时间点t[1]～t[M]之中的能观测到与解析时间点t[m2]的中间数据D[m2]相似的中间数据D[m]的各解析时间点t[m]，也同样地，该解析时间点t[m]的输出数据O[m]表示的概率P[m]应当设定为接近1的数值。因此，推定模型更新部27在中间数据D[m]和中间数据D[m2]之间的相似度超过规定的阈值的情况下，对推定模型50的多个变量进行更新，以使得输出数据O[m]的概率P[m]接近足够大的数值(例如1)。具体而言，推定模型更新部27更新对第1部分50a、适应模块55和第2部分50b各自进行规定的系数，以使得根据与中间数据D[m2]之间的相似度超过阈值的各中间数据D[m]而由推定模型50生成的输出数据O[m]的概率P[m]、和代表拍点的数值(即1)之间的误差减小。

另一方面，解析时间点t[m1]是在前一个的概率计算处理Sa中被推定为属于拍点但根据变更指示被指示为不属于拍点的时间点。即，解析时间点t[m1]的输出数据O[m1]表示的概率P[m1]虽然在前一个的概率计算处理Sa中被设定为大的数值，但基于利用者的变更指示却应当设定为接近0的数值。并且，不仅是解析时间点t[m1]，对于乐曲内的M个解析时间点t[1]～t[M]之中的能观测到与解析时间点t[m1]的中间数据D[m1]相似的中间数据D[m]的各解析时间点t[m]，也同样地，该解析时间点t[m]的输出数据O[m]表示的概率P[m]应当设定为接近0的数值。因此，推定模型更新部27在中间数据D[m]和中间数据D[m1]之间的相似度超过规定的阈值的情况下，对推定模型50的多个变量进行更新，以使得输出数据O[m]的概率P[m]接近足够小的数值(例如0)。具体而言，推定模型更新部27更新对第1部分50a、适应模块55和第2部分50b各自进行规定的系数，以使得根据与中间数据D[m1]之间的相似度超过阈值的各中间数据D[m]而由推定模型50生成的输出数据O[m]的概率P[m]、和代表不属于拍点的数值(即0)之间的误差减小。

如根据以上的说明所理解的那样，在第1实施方式中，不仅是与变更指示直接相关联的中间数据D[m1]及中间数据D[m2]，乐曲的整体范围的M个中间数据D[1]～D[M]之中的与中间数据D[m1]或中间数据D[m2]相似的中间数据D[m]也利用于推定模型50的更新。因此，与利用者指示变更的拍点不过是乐曲内的一部分的拍点无关地，推定模型更新处理Sc执行后的推定模型50能够针对乐曲的整体范围，生成反映出变更指示的M个输出数据O[1]～O[M]。

图12是例示出推定模型更新处理Sc的具体流程的流程图。通过由控制装置11作为推定模型更新部27起作用而执行推定模型更新处理Sc。

如果开始推定模型更新处理Sc，则推定模型更新部27判定是否已对推定模型50追加了适应模块55(Sc1)。在没有对推定模型50追加适应模块55的情况下(Sc1：NO)，推定模型更新部27在推定模型50的第1部分50a和第2部分50b之间新追加初始的适应模块55(Sc2)。另一方面，在过去的推定模型更新处理Sc中已追加完适应模块55的情况下(Sc1：YES)，不执行适应模块55的追加(Sc2)。

在新追加了适应模块55的情况下，包含新的适应模块55在内的推定模型50通过以下的处理进行更新，在适应模块55已追加完的情况下，包含已有的适应模块55在内的推定模型50通过以下的处理进行更新。即，推定模型更新部27在对推定模型50追加了适应模块55的状态下，通过执行应用了基于来自利用者的变更指示进行变更前及变更后的拍点的位置的追加学习(Sc3及Sc4)而对推定模型50的多个变量进行更新。此外，在利用者针对2个以上的拍点指示了位置的变更的情况下，针对变更指示涉及的各拍点执行追加学习(Sc3及Sc4)。

推定模型更新部27利用基于变更指示进行变更前的拍点所处的解析时间点t[m1]的特征数据F[m1]，对推定模型50的多个变量进行更新(Sc3)。具体而言，推定模型更新部27与针对推定模型50的特征数据F[m1]的供给并行地，将M个中间数据D[1]～D[M]各自依次供给至适应模块55，对推定模型50的多个变量进行更新，以使得根据与特征数据F[m1]的中间数据D[m1]相似的各中间数据D[m]而生成的输出数据O[m]的概率P[m]接近0。因此，推定模型50被训练为，在被输入了与解析时间点t[m1]的特征数据F[m1]相似的特征数据F[m]的情况下，生成表示接近0的概率P[m]的输出数据O[m]。

另外，推定模型更新部27利用基于变更指示进行变更后的拍点所处的解析时间点t[m2]的特征数据F[m2]，对推定模型50的多个变量进行更新(Sc4)。具体而言，推定模型更新部27与针对推定模型50的特征数据F[m2]的供给并行地，将M个中间数据D[1]～D[M]各自依次供给至适应模块55，对推定模型50的多个变量进行更新，以使得根据与特征数据F[m2]的中间数据D[m2]相似的各中间数据D[m]而生成的输出数据O[m]的概率P[m]接近1。因此，推定模型50被训练为，在被输入了与解析时间点t[m2]的特征数据F[m2]相似的特征数据F[m]的情况下，生成表示接近1的概率P[m]的输出数据O[m]。

除了通过以上例示出的推定模型更新处理Sc而与变更指示相对应地更新推定模型50以外，在第1实施方式中，通过基于与变更指示相对应的约束条件而执行拍点推定处理Sb，由此推定出更新后的多个拍点。

如前述那样，拍间隔δ内的5个经过点Y[0]～Y[4]之中的经过点Y[0]属于拍点，剩余的4个经过点Y[1]～Y[4]不属于拍点。时间轴上的解析时间点t[m2]属于基于变更指示进行变更后的拍点。因此，推定处理部23将在解析时间点t[m2]与不同的状态Q对应的N个似然度λ[i，j]之中的、与除了经过点Y[0]以外的经过点Y[j’](j’＝1～4)对应的似然度λ[i，j’]强制地设定为0。另外，推定处理部23将解析时间点t[m2]处的N个似然度λ[i，j]之中的与经过点Y[0]对应的似然度λ[i，0]维持为通过前述的方法计算出的数值。因此，在状态序列的生成(Sb3)中，推定在解析时间点t[m2]必须通过经过点Y[0]的状态Q的最优路径。即，解析时间点t[m2]被推定为属于拍点。如根据以上的说明所理解的那样，在基于来自利用者的变更指示进行变更后的拍点的解析时间点t[m2]处能够观测到经过点Y[0]的状态Q这一约束条件下，执行拍点推定处理Sb。

另一方面，时间轴上的解析时间点t[m1]不属于基于变更指示进行变更后的拍点。因此，推定处理部23将解析时间点t[m1]处与不同的状态Q对应的N个似然度λ[i，j]之中的、与经过点Y[0]对应的似然度λ[i，0]强制地设定为0。另外，推定处理部23将解析时间点t[m1]处的N个似然度λ[i，j]之中的、与除了经过点Y[0]以外的经过点Y[j’]对应的似然度λ[i，j’]维持为通过前述的方法计算出的有意义的数值。因此，在状态序列的生成(Sb3)中，能够推定在解析时间点t[m1]不通过经过点Y[0]的状态Q的最优路径。即，解析时间点t[m1]被推定为不属于拍点。如根据以上的说明所理解的那样，在基于来自利用者的变更指示进行变更前的解析时间点t[m1]处不能观测到经过点Y[0]的状态Q这一约束条件下，执行拍点推定处理Sb。

如以上所述，解析时间点t[m1]的经过点Y[0]的似然度λ[i，0]设定为0，解析时间点t[m2]的除了经过点Y[0]以外的经过点Y[j’]的似然度λ[i，j’]设定为0，由此乐曲整体范围的最优路径发生变化。即，与利用者指示变更的拍点不过是乐曲内的一部分的拍点无关地，在乐曲的整体范围的多个拍点反映出变更指示。

图13是例示出由控制装置11执行的处理的具体流程的流程图。例如，将来自利用者的对操作装置14的指示作为契机而开始图13的处理。如果开始处理，则控制装置11执行通过音响信号A的解析而推定乐曲的多个拍点的处理(以下，称为“初始解析处理”)(S1)。

图14是例示出初始解析处理的具体流程的流程图。如果开始初始解析处理，则控制装置11(特征提取部21)针对时间轴上的M个解析时间点t[1]～t[M]各自而生成特征数据F[m](S11)。特征数据F[m]如前述那样，是包含解析时间点t[m]的单位期间U内的多个特征量f[m]的时间序列。

控制装置11(概率计算部22)通过执行图6例示出的概率计算处理Sa而生成与不同的解析时间点t[m]对应的M个输出数据O[m](S12)。另外，控制装置11(推定处理部23)通过执行图9例示出的拍点推定处理Sb而对乐曲内的多个拍点进行推定(S13)。

控制装置11(显示控制部24)对通过拍点推定处理Sb推定出的多个拍点之中的1个以上的修正候补点进行确定(S14)。具体而言，将与前一个或后一个的拍点之间的拍间隔δ背离了乐曲内的平均值的拍点、或、拍间隔δ的时间长度与前后的拍间隔δ相比显著不同的拍点确定为修正候补点。另外，也可以将多个拍点之中的概率P[m]小于规定值的拍点确定为修正候补点。控制装置11(显示控制部24)使显示装置13对图10例示出的解析画面70进行显示(S15)。

如果执行以上例示出的初始解析处理，则控制装置11(指示接受部26)如图13所例示的那样，直至从利用者接受到与乐曲内的多个拍点之中的一部分的拍点相关的变更指示为止进行等待(S2：NO)。如果接受到变更指示(S2：YES)，则控制装置11(推定模型更新部27及解析处理部20)执行与来自利用者的变更指示相对应地对通过初始解析处理推定出的多个拍点的位置进行更新的拍点更新处理(S3)。

图15是例示出拍点更新处理的具体流程的流程图。控制装置11(推定模型更新部27)通过执行图12例示出的推定模型更新处理Sc，而与来自利用者的变更指示相对应地对推定模型50的多个变量进行更新(S31)。

控制装置11(概率计算部22)通过利用基于推定模型更新处理Sc进行更新后的推定模型50执行图6的概率计算处理Sa，从而生成M个输出数据O[1]～O[M](S32)。另外，控制装置11(解析处理部20)通过执行利用了M个输出数据O[1]～Q[M]的图9的拍点推定处理Sb，从而生成拍点数据B(S33)。即，能够推定出乐曲内的多个拍点。拍点更新处理内的拍点推定处理Sb是在与变更指示相对应的前述的约束条件下执行的。

如根据以上的说明所理解的那样，通过对推定模型50进行更新的推定模型更新处理Sc、利用了更新后的推定模型50的概率计算处理Sa、和利用了通过该概率计算处理Sa生成的输出数据O[m]的拍点推定处理Sb，推定出更新后的多个拍点。即，通过推定模型更新部27、概率计算部22和解析处理部20，实现对已推定出的多个拍点的位置进行更新的要素(拍点更新部)。

控制装置11(显示控制部24)与前述的步骤S14相同地，对通过拍点推定处理Sb推定出的多个拍点之中的1个以上的修正候补点进行确定(S34)。控制装置11(显示控制部24)使显示装置13对包含表示更新后的各拍点的拍图像751在内的图10的解析画面70进行显示(S35)。

如果执行以上例示出的拍点更新处理，则控制装置11如图13所例示的那样，判定是否从利用者指示了处理的结束(S4)。在没有指示处理的结束的情况下(S4：NO)，控制装置11跳转至利用者的变更指示的等待(S2)。控制装置11将利用者的再次的变更指示作为契机而执行拍点更新处理(S3)。在第2次以后的拍点更新处理的推定模型更新处理Sc(S31)中，判定有无适应模块55(Sc1)的结果为肯定，因此不执行新的适应模块55的追加。即，对于在第1次的拍点更新处理中追加了适应模块55的推定模型50，在以后每次执行推定模型更新处理Sc时累积进行更新。另一方面，在指示了处理的结束的情况下(S4：YES)，控制装置11将图13的处理结束。

如以上说明的那样，在第1实施方式中，与关于通过音响信号A的解析而推定出的多个拍点之中的一部分的拍点的、来自利用者的变更指示相对应地，更新包含除了该一部分的拍点以外的拍点在内的乐曲内的多个拍点的位置。即，针对乐曲的一部分的变更指示被反映于乐曲的整体。因此，与需要针对乐曲内的全部拍点各自分别由利用者指示位置的变更的结构相比，能够减轻利用者对各拍点的位置的变更进行指示的负荷，并且取得符合利用者的意图的拍点的时间序列。

在推定模型50的第1部分50a和第2部分50b之间追加了适应模块55的状态下，通过应用了基于来自利用者的变更指示进行变更前及变更后的拍点的位置的追加学习而更新推定模型50。因此，能够将推定模型50特殊化为能够对符合利用者的意图或喜好的拍点进行推定的状态。

另外，利用由与多个节奏X[i]的任意者对应的多个状态Q构成的状态转变模型60而推定多个拍点。因此，能够推定出多个拍点，使得节奏X[i]自然地转变。在第1实施方式中，特别是，状态转变模型60的多个状态Q与多个节奏X[i]各自和拍间隔δ内的多个经过点Y[j]各自的不同的组合对应，在基于来自利用者的变更指示进行变更后的拍点的解析时间点t[m]处能够观测到与经过点Y[0]对应的状态Q这一约束条件下执行拍点推定处理Sb。因此，能够对包含基于来自利用者的变更指示进行变更后的时间点作为拍点的多个拍点进行推定。

B：第2实施方式

对第2实施方式进行说明。此外，在以下所例示的各方式中对于功能与第1实施方式相同的要素，沿用与在第1实施方式的说明中使用的标号相同的标号而适当地省略各自的详细说明。

图16是例示出第2实施方式的音响解析系统100的功能性结构的模块图。第2实施方式的控制装置11除了与第1实施方式相同的要素(解析处理部20、显示控制部24、播放控制部25、指示接受部26及推定模型更新部27)以外，还作为曲线设定部28起作用。

第2实施方式的解析处理部20除了乐曲内的多个拍点的推定以外，还执行该乐曲的节奏T[m]的推定。即，解析处理部20通过对音响信号A进行解析，从而对与时间轴上的不同的解析时间点t[m]对应的M个节奏T[1]～T[M]的时间序列进行推定。

图17是第2实施方式的解析画面70的示意图。第2实施方式的解析画面70除了与第1实施方式相同的要素以外，还包含推定节奏曲线CT、最大节奏曲线CH和最小节奏曲线CL。具体而言，在解析画面70的波形区域73，音响信号A的波形731、推定节奏曲线CT、最大节奏曲线CH和最小节奏曲线CL基于共通的时间轴进行显示。此外，在图17中，为了方便而省略音响信号A的发音点732的显示。

图18是着眼于推定节奏曲线CT、最大节奏曲线CH和最小节奏曲线CL的示意图。推定节奏曲线CT是表示由解析处理部20推定的节奏T[m]的时间序列的曲线。另外，最大节奏曲线CH是表示由解析处理部20推定的节奏T[m]的最大值(以下，称为“最大节奏”)H[m]的时间变化的曲线。即，最大节奏曲线CH表示与时间轴上的不同的解析时间点t[m]对应的M个最大节奏H[1]～H[M]的时间序列。最小节奏曲线CL是表示由解析处理部20推定的节奏T[m]的最小值(以下，称为“最小节奏”)L[m]的时间变化的曲线。即，最小节奏曲线CL表示与时间轴上的不同的解析时间点t[m]对应的M个最小节奏L[1]～L[M]的时间序列。

如根据以上的说明所理解的那样，解析处理部20针对各解析时间点t[m]，在最大节奏H[m]和最小节奏L[m]之间的范围(以下，称为“限制范围”)R[m]内对乐曲的节奏T[m]进行推定。因此，推定节奏曲线CT位于最大节奏曲线CH和最小节奏曲线CL之间。限制范围R[m]的位置及范围幅度随时间进行变化。

图16的曲线设定部28对最大节奏曲线CH和最小节奏曲线CL进行设定。例如，利用者通过对操作装置14进行操作，而能够对希望的形状的最大节奏曲线CH和希望的形状的最小节奏曲线CL进行指示。曲线设定部28与来自利用者的针对解析画面70(波形区域73)的指示相对应地，对最大节奏曲线CH及最小节奏曲线CL进行设定。例如，曲线设定部28将在波形区域73内按时间序列通过由利用者指定的多个地点的连续的曲线设定为最大节奏曲线CH或最小节奏曲线。另外，利用者通过对操作装置14进行操作，而能够对波形区域73指示已设定完的最大节奏曲线CH及最小节奏曲线CL的变更。曲线设定部28与来自利用者的针对解析图像(波形区域73)的指示相对应地，对最大节奏曲线CH和最小节奏曲线CL进行变更。如根据以上的说明所理解的那样，根据第2实施方式，利用者能够一边确认解析画面70一边容易地对最大节奏曲线CH和最小节奏曲线CL进行变更。

在第2实施方式中，音响信号A的波形731和最大节奏曲线CH及最小节奏曲线CL基于共通的时间轴进行显示，因此利用者在视觉上容易掌握最大节奏H[m]或最小节奏L[m]的时间变化和音响信号A的波形731之间的关系。另外，与最大节奏曲线CH及最小节奏曲线CL一起显示推定节奏曲线CT，因此利用者在视觉上能够掌握在最大节奏曲线CH和最小节奏曲线CL之间推定出的乐曲的节奏T[m]的时间变化。

图19是例示出第2实施方式的拍点推定处理Sb的具体流程的流程图。如果与第1实施方式相同地对各解析时间点t[m]的观测似然度Λ[m]进行设定(Sb1)，则推定处理部23针对状态转变模型60的各状态Q[i，j]，在每个解析时间点t[m]对路径p[i，j]和似然度λ[i，j]进行计算(Sb2)。第2实施方式的推定处理部23针对各解析时间点t[m]，将与多个节奏X[i]之中的超过最大节奏H[m]的各节奏X[i]对应的似然度λ[i，j]、和与小于最小节奏L[m]的各节奏X[i]对应的似然度λ[i，j]设定为0。即，状态转变模型60的N个状态Q之中的与限制范围R[m]的外侧的节奏X[i]对应的状态Q被设定为无效状态。另外，推定处理部23针对各解析时间点t[m]，与第1实施方式相同地将与限制范围R[m]的内侧的各节奏X[i]对应的似然度λ[i，j]设定为有意义的数值。即，状态转变模型60的N个状态Q之中的与限制范围R[m]的内侧的节奏X[i]对应的状态Q被设定为有效状态。

推定处理部23通过与第1实施方式相同的方法，生成状态序列(Sb3)。即，生成将N个状态Q之中的似然度λ[i，j]大的状态Q针对每个解析时间点t[m]进行排列的序列，作为状态序列。如前述那样，在解析时间点t[m]处与限制范围R[m]的外侧的节奏X[i]对应的状态Q[i，j]的似然度λ[i，j]被设定为0。因此，不会选择与限制范围R[m]的外侧的节奏X[i]对应的状态Q作为状态序列的要素。如根据以上的说明所理解的那样，各状态Q的无效状态代表不能选择该状态Q的状态。

推定处理部23与第1实施方式相同地生成拍点数据B(Sb4)，根据状态序列而对各解析时间点t[m]的节奏T[m]进行确定(Sb5)。即，将状态序列之中的与解析时间点t[m]对应的状态Q的节奏X[i]设定为节奏T[m]。如前述那样，与限制范围R[m]的外侧的节奏X[i]对应的状态Q不会被选择为状态序列的要素，因此节奏T[m]被限制为限制范围R[m]的内侧的数值。

如以上说明的那样，在第2实施方式中，与来自利用者的指示相对应地设定最大节奏曲线CH和最小节奏曲线CL。而且，在最大节奏曲线CH表示的最大节奏H[m]和最小节奏曲线CL表示的最小节奏L[m]之间的限制范围R[m]内推定乐曲的节奏T[m]。因此，降低推定出与利用者所意图的节奏过度地背离的节奏(例如，利用者设想的数值的2倍或1/2倍的节奏)的可能性。即，能够高精度地对音响信号A表示的乐曲的节奏T[m]进行推定。

另外，在第2实施方式中，由与多个节奏X[i]的任意者对应的多个状态Q构成的状态转变模型60利用于多个拍点的推定。因此，能够推定出随时间自然地转变的节奏T[m]。而且，通过将多个状态Q之中的与限制范围R[m]的外侧的节奏X[i]对应的状态Q设定为无效状态的简单的处理，能够对被限制于限制范围R[m]内的节奏T[m]进行推定。

C：第3实施方式

在第1实施方式中例示出如下方式，即，将表示由概率计算部22通过推定模型50而计算出的概率P[m]的输出数据O[m]应用于由推定处理部23进行的拍点推定处理Sb。在第3实施方式中，与来自的利用者的针对操作装置14的操作相对应地对通过推定模型50计算出的概率P[m](以下，称为“概率P1[m]”)进行调整，将表示调整后的概率P2[m]的输出数据O[m]应用于拍点推定处理Sb。

图20是由第3实施方式的概率计算部22生成输出数据O[m]的处理的说明图。利用者一边听取由播放控制部25使放音装置15播放的乐曲的演奏音，一边在自身识别为拍点的各时间点对操作装置14进行操作。例如，利用者与乐曲的播放并行地，在自身进行识别的拍点的时间点对操作装置14的触摸面板施加敲击(tap)操作。在图20，在时间轴上图示出利用者已操作的时间点(以下，称为“操作时间点”)τ。

概率计算部22针对每个操作时间点τ而设定单位分布W。单位分布W是时间轴上的加权值w[m]的分布。例如方差被设定为规定值的正态分布等概率分布作为单位分布W进行利用。在各单位分布W中，在操作时间点τ处加权值w[m]最大，越远离操作时间点τ则加权值w[m]越小。

概率计算部22通过将推定模型50针对该解析时间点t[m]而生成的概率P1[m]和该解析时间点t[m]的加权值w[m]相乘，由此对调整后的概率P2[m]进行计算。因此，即使对于由推定模型50生成的概率P1[m]小的解析时间点t[m]，在该解析时间点t[m]接近操作时间点τ的情况下，调整后的概率P2[m]也设定为大的数值。概率计算部22将表示调整后的概率P2[m]的输出数据O[m]供给至推定处理部23。推定处理部23利用输出数据O[m]而推定多个拍点的拍点推定处理Sb的流程与第1实施方式相同。

在第3实施方式中，也能够实现与第1实施方式相同的效果。另外，在第3实施方式中，将在利用者的操作时间点τ设定的单位分布W的加权值w[m]与概率P1[m]相乘，由此具有能够对充分地反映出利用者的意图或喜好的拍点进行推定的优点。此外，第2实施方式的结构对于第3实施方式也同样适用。

D：变形例

以下，例示出对以上例示的各方式附加的具体变形的方式。可以将从以下的例示任意地选择出的2个以上的方式在不相互矛盾的范围适当地合并。

(1)推定模型50的结构不限定于图4的例示。例如，还设想推定模型50包含递归神经网络的方式。另外，可以将长短期记忆(LSTM：LongShort－TermMemory)等附加要素搭载于推定模型50。可以通过多种深度神经网络的组合而构成推定模型50。

(2)通过音响信号A的解析而推定乐曲内的多个拍点的处理的具体流程不限定于前述的各方式的例示。例如，解析处理部20可以将由输出数据O[m]表示的概率P[m]极大的解析时间点t[m]推定为拍点。即，状态转变模型60的利用可省略。另外，解析处理部20可以将例如音响信号A的音量等特征量f[m]显著增大的时间点推定为拍点。即，推定模型50的利用可省略。

(3)对由初始解析处理推定出的多个拍点进行更新的第1实施方式的结构在第2实施方式中可以省略。即，与针对已推定出的多个拍点之中的一部分的拍点的变更指示相对应地对乐曲整体范围的多个拍点进行更新的第1实施方式的结构、和在与来自利用者的指示相对应的限制范围R[m]内对乐曲的节奏T[m]进行推定的第2实施方式的结构可以彼此独立地成立。

(4)例如可以通过在智能手机或平板终端等信息装置之间进行通信的服务器装置而实现音响解析系统100。例如，音响解析系统100通过从信息装置接收到的音响信号A的解析而生成拍点数据B，将该拍点数据B发送至信息装置。利用者的变更指示的接受(S2)及拍点更新处理(S3)也同样地，由与信息装置进行通信的音响解析系统100执行。

(5)以上例示出的音响解析系统100的功能如前述那样，通过构成控制装置11的单个或多个处理器、和存储于存储装置12的程序的协同动作而实现。本发明涉及的程序以储存于计算机可读取的记录介质的方式提供而安装于计算机。记录介质例如是非临时性(non-transitory)的记录介质，优选是CD-ROM等光学式记录介质(光盘)，还包含半导体记录介质或磁记录介质等公知的任意形式的记录介质。此外，作为非临时性的记录介质，包含除了临时性的输送信号(transitory,propagating signal)以外的任意的记录介质，也可以不将易失性的记录介质除外。在传送装置经由通信网而传送程序的结构中，在该传送装置中对程序进行存储的记录介质12相当于前述的非临时性的记录介质。

E：附录

根据以上例示出的方式，例如掌握以下的结构。

本发明的一个方式(方式1)涉及的音响解析方法，通过表示乐曲的演奏音的音响信号的解析而推定所述乐曲的多个拍点，针对所述多个拍点之中的一部分的拍点而从利用者接受位置的变更的指示，与来自所述利用者的指示相对应地对所述多个拍点的位置进行更新。在以上的方式中，与通过音响信号的解析推定出的多个拍点之中的一部分的拍点相关的位置的变更指示相对应地，更新包含除了该一部分的拍点以外的拍点在内的多个拍点的位置。因此，与需要利用者针对多个拍点的全部对位置进行变更的结构相比，能够减轻利用者对各拍点的位置的变更进行指示的负荷，并且取得符合该利用者的意图的拍点的时间序列。

在方式1的具体例(方式2)中，所述拍点的推定包含：特征提取处理，针对时间轴上的多个解析时间点各自而生成包含所述音响信号的特征量在内的特征数据；概率计算处理，通过对推定模型输入由所述特征提取处理针对所述各解析时间点而生成的特征数据，由此生成表示该解析时间点属于拍点的概率的输出数据，该推定模型对与时间轴上的时间点对应的学习用特征数据和表示该时间点属于拍点的概率的学习用输出数据之间的关系进行了学习；以及拍点推定处理，根据通过所述概率计算处理生成的输出数据而推定所述多个拍点。根据以上的方式，能够基于学习用特征数据和学习用输出数据之间潜在的关系，针对未知的特征数据而生成统计上合理的输出数据。

在方式2的具体例(方式3)中，在所述多个拍点的位置的更新中，在所述推定模型的输入侧的第1部分和输出侧的第2部分之间追加了适应模块的状态下，通过执行应用了基于来自所述利用者的指示进行变更前或变更后的拍点的位置的追加学习，由此对所述推定模型进行更新，通过利用了该更新后的推定模型的所述概率计算处理和利用了通过该概率计算处理而生成的输出数据的所述拍点推定处理，对更新后的多个拍点进行推定。根据以上的方式，通过应用了基于来自利用者的指示进行变更前或变更后的拍点的位置的追加学习，对推定模型进行更新。因此，能够将推定模型特殊化为能够推定出符合利用者的意图或喜好的拍点的状态

此外，适应模块是生成第1中间数据和第2中间数据之间的相似度的模块，该第1中间数据是由第1部分根据与基于来自利用者的指示进行变更前或变更后的拍点的位置对应的特征数据而生成的，该第2中间数据与乐曲内的多个解析时间点各自的特征数据对应。对包含适应模块的推定模型的整体进行更新，以使得对应于与基于来自利用者的指示进行变更前的拍点的位置的第1中间数据相似的第2中间数据的解析时间点的输出数据接近代表不属于拍点的数值，另外，对应于与变更后的拍点的位置的第1中间数据相似的第2中间数据的解析时间点的输出数据接近代表属于拍点的数值。

在方式2或方式3的具体例(方式4)中，在所述拍点推定处理中，利用由与多个节奏的任意者对应的多个状态构成的状态转变模型而推定所述多个拍点。根据以上的方式，利用由与多个节奏的任意者对应的多个状态构成的状态转变模型而推定多个拍点。因此，能够推定多个拍点，以使得节奏随时间自然地转变。

在方式4的具体例(方式5)中，所述状态转变模型的所述多个状态与所述多个节奏各自和拍间隔内的多个经过点各自的不同的组合对应，在所述拍点推定处理中，将所述多个经过点之中的能观测到与所述拍间隔的端点对应的状态的时间点推定为拍点，在所述多个拍点的位置的更新中，通过在基于来自所述利用者的指示进行变更后的拍点的时间点处能观测到与所述拍间隔的端点对应的状态这一约束条件下执行所述拍点推定处理，由此对更新后的多个拍点进行推定。根据以上的方式，能够对包含基于来自利用者的指示进行变更后的时间点的拍点在内的多个拍点进行推定。

本发明的一个方式(方式6)涉及的音响解析系统具有：解析处理部，其通过表示乐曲的演奏音的音响信号的解析而推定所述乐曲的多个拍点；指示接受部，其针对所述多个拍点之中的一部分的拍点而从利用者接受位置的变更的指示；以及拍点更新部，其与来自所述利用者的指示相对应地对所述多个拍点的位置进行更新。

本发明的一个方式(方式7)涉及的程序使计算机系统作为下述功能部起作用：解析处理部，其通过表示乐曲的演奏音的音响信号的解析而推定所述乐曲的多个拍点；指示接受部，其针对所述多个拍点之中的一部分的拍点而从利用者接受位置的变更的指示；以及拍点更新部，其与来自所述利用者的指示相对应地，对所述多个拍点的位置进行更新。

此外，本说明书的“节奏”是表示演奏速度的任意的数值，不限定于单位时间内的拍数(BPM：Beats Per Minute)这一含义的狭义的节奏。

本申请基于2021年2月25日申请的日本申请(特愿2021－028539)及2021年2月25日申请的日本申请(特愿2021－028549)，在这里通过参照而引入其内容。

工业实用性

根据本发明的音响解析方法、音响解析系统及程序，能够减轻利用者对各拍点的位置的变更进行指示的负荷，并且取得符合该利用者的意图的拍点的时间序列。

标号的说明

100…音响解析系统

11…控制装置

12…存储装置

13…显示装置

14…操作装置

15…放音装置

20…解析处理部

21…特征提取部

22…概率计算部

23…推定处理部

24…显示控制部

25…播放控制部

26…指示接受部

27…推定模型更新部

28…曲线设定部

50…推定模型

50a…第1部分

50b…第2部分

51…输入层

52(52a、52b)…中间层

53…输出层

55…适应模块

59…临时模型

60…状态转变模型

Claims

1.一种音响解析方法，其是由计算机系统实现的，

通过表示乐曲的演奏音的音响信号的解析而推定所述乐曲的多个拍点，

针对所述多个拍点之中的一部分的拍点而从利用者接受位置的变更的指示，

与来自所述利用者的指示相对应地，对所述多个拍点的位置进行更新。

2.根据权利要求1所述的音响解析方法，其中，

所述拍点的推定包含：

特征提取处理，针对时间轴上的多个解析时间点各自而生成包含所述音响信号的特征量在内的特征数据；

概率计算处理，通过对推定模型输入由所述特征提取处理针对所述各解析时间点而生成的特征数据，由此生成表示该解析时间点属于拍点的概率的输出数据，该推定模型对与时间轴上的时间点对应的学习用特征数据和表示该时间点属于拍点的概率的学习用输出数据之间的关系进行了学习；以及

拍点推定处理，根据通过所述概率计算处理生成的输出数据而推定所述多个拍点。

3.根据权利要求2所述的音响解析方法，其中，

在所述多个拍点的位置的更新中，

在所述推定模型的输入侧的第1部分和输出侧的第2部分之间追加了适应模块的状态下，通过执行应用了基于来自所述利用者的指示进行变更前或变更后的拍点的位置的追加学习，由此对所述推定模型进行更新，

通过利用了该更新后的推定模型的所述概率计算处理和利用了通过该概率计算处理而生成的输出数据的所述拍点推定处理，对更新后的多个拍点进行推定。

4.根据权利要求2或3所述的音响解析方法，其中，

在所述拍点推定处理中，利用由与多个节奏的任意者对应的多个状态构成的状态转变模型而推定所述多个拍点。

5.根据权利要求4所述的音响解析方法，其中，

所述状态转变模型的所述多个状态与所述多个节奏各自和拍间隔内的多个经过点各自的不同的组合对应，

在所述拍点推定处理中，将所述多个经过点之中的能观测到与所述拍间隔的端点对应的状态的时间点推定为拍点，

在所述多个拍点的位置的更新中，

通过在基于来自所述利用者的指示进行变更后的拍点的时间点处能观测到与所述拍间隔的端点对应的状态这一约束条件下执行所述拍点推定处理，由此对更新后的多个拍点进行推定。

6.一种音响解析系统，其具有：

解析处理部，其通过表示乐曲的演奏音的音响信号的解析而推定所述乐曲的多个拍点；

指示接受部，其针对所述多个拍点之中的一部分的拍点而从利用者接受位置的变更的指示；以及

拍点更新部，其与来自所述利用者的指示相对应地，对所述多个拍点的位置进行更新。

7.根据权利要求6所述的音响解析系统，其中，

所述解析处理部包含：

特征提取部，其针对时间轴上的多个解析时间点各自而生成包含所述音响信号的特征量在内的特征数据；

概率计算部，其通过对推定模型输入由所述特征提取处理针对所述各解析时间点而生成的特征数据，由此生成表示该解析时间点属于拍点的概率的输出数据，该推定模型对与时间轴上的时间点对应的学习用特征数据和表示该时间点属于拍点的概率的学习用输出数据之间的关系进行了学习；以及

拍点推定部，其根据由所述概率计算部生成的输出数据而推定所述多个拍点。

8.根据权利要求7所述的音响解析系统，其中，

所述拍点更新部包含：

推定模型更新部，其在所述推定模型的输入侧的第1部分和输出侧的第2部分之间追加了适应模块的状态下，通过执行应用了基于来自所述利用者的指示进行变更前或变更后的拍点的位置的追加学习，由此对所述推定模型进行更新；

所述概率计算部，其利用该更新后的推定模型而生成所述输出数据；以及

所述拍点推定部，其利用由该概率计算部生成的输出数据，对更新后的多个拍点进行推定。

9.根据权利要求7或8所述的音响解析系统，其中，

所述拍点推定部利用由与多个节奏的任意者对应的多个状态构成的状态转变模型而推定所述多个拍点。

10.根据权利要求9所述的音响解析系统，其中，

所述拍点推定部执行拍点推定处理，该拍点推定处理将所述多个经过点之中的能观测到与所述拍间隔的端点对应的状态的时间点推定为拍点，

所述拍点更新部通过在基于来自所述利用者的指示进行变更后的拍点的时间点处能观测到与所述拍间隔的端点对应的状态这一约束条件下执行所述拍点推定处理，由此对更新后的多个拍点进行推定。

11.一种程序，其使计算机系统作为下述功能部起作用：