CN112567450B

CN112567450B - 乐谱数据的信息处理装置

Info

Publication number: CN112567450B
Application number: CN201980051783.7A
Authority: CN
Inventors: 前泽阳
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2018-08-10
Filing date: 2019-06-28
Publication date: 2024-03-29
Anticipated expiration: 2039-06-28
Also published as: US20210151014A1; WO2020031544A1; CN112567450A; JPWO2020031544A1; US11967302B2; JP7230919B2

Abstract

本发明提供一种用于生成表示附加有音乐表现的多样的演奏的演奏数据的信息处理方法。所述信息处理方法包含：通过将表示乐曲的乐谱的乐谱数据的乐谱数据和表示使演奏变动的要因的变动数据输入至训练好的模型，从而生成表示对由所述要因引起的变动进行了反映的所述乐曲的演奏的演奏数据。

Description

乐谱数据的信息处理装置

技术领域

本发明涉及对表示乐曲的乐谱的乐谱数据进行处理的技术。

背景技术

以往提出了用于根据表示乐曲的乐谱的乐谱数据而生成演奏数据的各种技术，该演奏数据表示附加有音乐性表现(以下称为“音乐表现”)的演奏。例如在非专利文献1中公开了下述技术，即，利用反映了由特定的演奏者进行的演奏的倾向的贝叶斯模型，生成附加有该倾向的演奏数据。

非专利文献1：Gerhard Widmer,Sebastian Flossmann,and Maarten Grachten,"YQX Plays Chopin,"AI Magazine,Vol 30,No 3,p.35-48,2009

发明内容

但是，在非专利文献1的结构中，存在根据1种乐谱数据只能生成1种演奏数据这样的问题。即，无法生成由特定的演奏者以不同的音乐表现演奏出的多样的演奏数据。考虑以上的情况，本发明的目的在于，生成展现附加有音乐表现的多样的演奏的演奏数据。

为了解决以上的课题，本发明的优选的方式所涉及的信息处理方法包含以下的内容。另外，能够提供执行以下的内容的信息处理装置、及使计算机执行以下的内容的信息处理程序。

·通过将表示乐曲的乐谱的乐谱数据和表示使演奏变动的要因的变动数据输入至训练好的模型，从而生成表示对由所述要因引起的变动进行了反映的所述乐曲的演奏的演奏数据

本发明的另一方式所涉及的信息处理方法包含以下的内容。另外，能够提供执行以下的内容的信息处理装置、及使计算机执行以下的内容的信息处理程序。

·通过将包含表示乐曲的演奏的演奏数据在内的第1学习数据输入至第1暂定模型，从而生成表示使演奏变动的要因的变动变量而按照特定的概率分布的变动数据；

·通过将包含表示所述乐曲的乐谱的乐谱数据和由所述第1暂定模型生成的变动数据在内的第2学习数据输入至第2暂定模型，从而生成表示对由所述要因引起的变动进行了反映的所述乐曲的演奏的推定数据；以及

·将对所述第1暂定模型进行规定的多个系数和对所述第2暂定模型进行规定的多个系数更新，以使得所述第1学习数据的所述演奏数据和由所述第2暂定模型生成的所述推定数据接近，且由所述第1暂定模型生成的变动数据的概率分布接近特定的目标分布

附图说明

图1是例示本发明的第1实施方式所涉及的信息处理装置的结构的框图。

图2是例示第1实施方式所涉及的信息处理装置的功能性结构的框图。

图3是操作画面的示意图。

图4是例示第1实施方式所涉及的信息处理装置的动作的流程图。

图5是例示第2实施方式所涉及的信息处理装置的结构的框图。

图6是例示第2实施方式所涉及的信息处理装置的功能性结构的框图。

图7是例示第2实施方式所涉及的信息处理装置的动作的流程图。

图8是例示第3及第4实施方式所涉及的信息处理装置的结构的框图。

图9是例示第3实施方式所涉及的信息处理装置的功能性结构的框图。

图10是例示第3实施方式所涉及的信息处理装置的动作的流程图。

图11是例示第4实施方式所涉及的信息处理装置的功能性结构的框图。

图12是例示第4实施方式所涉及的生成目标分布的模型的图。

图13是例示对第4实施方式所涉及的状态变量进行定义的模型的图。

图14是例示第4实施方式所涉及的信息处理装置的动作的流程图。

图15是例示第3实施方式的变形例所涉及的信息处理装置的功能性结构的框图。

图16是第1及第2实施方式以及第3及第4实施方式的变形例所涉及的用于进行通过前处理部实施的乐谱数据的变换的网络的模型图。

具体实施方式

＜第1实施方式＞

图1是例示本发明的第1实施方式所涉及的信息处理装置100A的结构的框图。如图1所例示那样，第1实施方式的信息处理装置100A是具有控制装置11、存储装置12、输入装置13、显示装置14、音源装置15和放音装置16的计算机系统。例如移动电话、智能手机或者个人计算机等信息终端适合被利用为信息处理装置100A。

显示装置14基于通过控制装置11实施的控制对各种图像进行显示。例如液晶显示面板适合被利用为显示装置14。输入装置13接收由利用者进行的操作。例如，由利用者进行操作的操作件、或者与显示装置14一体地构成的触摸面板被利用为输入装置13。另外，可以将能够输入声音的拾音装置利用为输入装置13。

控制装置11例如是CPU(Central Processing Unit)等处理电路，对信息处理装置100A的各要素集中地进行控制。存储装置12例如是由磁记录介质或者半导体记录介质等公知的记录介质构成的存储器，对由控制装置11执行的程序和由控制装置11使用的各种数据进行存储。此外，也可以通过多种记录介质的组合而构成存储装置12。另外，也可以将相对于信息处理装置100A能够装卸的移动型的记录介质、或者信息处理装置100A经由通信网能够通信的外部记录介质(例如在线储存器)利用为存储装置12。

第1实施方式的存储装置12对乐谱数据S1进行存储，该乐谱数据S1表示乐曲的乐谱。乐谱数据S1对构成乐曲的多个音符的时间序列和与该乐曲的演奏相关的音乐记号(例如音部记号、拍子记号、变化记号或者演奏记号)进行指定。例如，MIDI(MusicalInstrument Digital Interface)形式或者MusicXML(eXtensible Markup Language)形式的文件适合作为乐谱数据S1。

第1实施方式的信息处理装置100A根据在存储装置12中存储的乐谱数据S1而生成演奏数据Q2。演奏数据Q2是表示乐谱数据S1所表示的乐曲的演奏的数据。演奏数据Q2所表示的演奏是针对乐谱数据S1所表示的乐谱而附加有音乐表现的演奏。音乐表现是由于演奏者的音乐性意图或者演奏动作的习惯等情况而附加于演奏的表现上的特征。例如，生成作为音乐表现而附加有与乐曲的演奏相关的各种倾向的演奏数据Q2，该倾向是与由乐谱指定出的时间相比将各音符缩短而演奏的倾向、或者与由乐谱指定出的时刻相比在前方或者后方演奏各音符的倾向等。

音源装置15生成与演奏数据Q2相对应的音响信号A。音响信号A是表示通过演奏数据Q2所表示的演奏进行发音的音响(例如乐器的演奏音)的时间信号。放音装置16对由音源装置15生成的音响信号A所表示的音响进行播放。例如扬声器或者耳机适合被利用为放音装置16。此外，为了方便起见省略图示了由音源装置15生成的音响信号A从数字变换为模拟的D/A变换器、及对音响信号A进行放大的放大器。另外，也可以将音源装置15及放音装置16设置于信息处理装置100A的外部。例如，可以将与信息处理装置100A分体的音源装置15或者放音装置16通过有线或者无线而与信息处理装置100A连接。

图2是例示信息处理装置100A的功能性结构的框图。如图2所例示那样，控制装置11通过执行在存储装置12中存储的程序，从而实现用于根据乐谱数据S1而生成演奏数据Q2的多个功能(前处理部21、变量控制部22、推定处理部23及后处理部24)。此外，可以通过相互地分体构成的多个装置而实现控制装置11的功能，也可以将控制装置11的功能的一部分或者全部通过专用的电子电路而实现。

前处理部21根据在存储装置12中存储的乐谱数据S1而生成乐谱数据S2。乐谱数据S2是表示乐曲的乐谱的数据。第1实施方式的乐谱数据S2是由与乐谱数据S1所表示的乐曲的不同的多个音符相对应的音符数据N的时间序列构成的。与任意的1个音符(以下称为“第1音符”)相对应的音符数据N对与该第1音符的演奏相关的信息进行指定。具体地说，第1音符的音符数据N包含以下例示的多个种类的信息(n1～n10)之中的至少一种信息。

n1：乐曲的拍子(例如4分之2拍等)

n2：乐曲的调号(例如C大调、A小调等)

n3：第1音符的音高(例如MIDI音符编号)

n4：第1音符的音阶(即持续长度)

n5：小节内的第1音符的位置(例如小节内的第1拍、第2拍等)

n6：第1音符的发音点相对于紧跟其前的音符的时间差

n7：第1音符的演奏强度(例如MIDI击键力度)

n8：第1音符的演奏记号(例如断续音等的变音)

n9：第1音符的演奏速度(例如由BPM(Beats Per Minute)表示的节奏)

n10：表示包含第1音符在内的区间的特征的特征向量

特征向量n10例如是表示在乐曲内以第1音符为中心的区间内的如钢琴卷轴这样的形式的音符列的特征的向量。例如，通过向机器学习(训练)好的卷积神经网络(CNN：Convolutional Neural Network)输入乐谱数据S1而生成特征向量n10。前处理部21通过乐谱数据S1的解析针对每个音符而确定以上所说明的信息(n1～n10)，从而生成乐谱数据S2。

如n1～n9这样的音符数据N所包含的信息可以作为连续值进行表现，也可以通过one-hot表现进行表现。

图2的推定处理部23根据由前处理部21生成的乐谱数据S2而生成演奏数据Q1。演奏数据Q1是表示附加有音乐表现的乐曲的演奏的数据。第1实施方式的演奏数据Q1是由与乐谱数据S2所表示的乐曲的不同的多个音符相对应的单位数据U的时间序列构成的。推定处理部23根据乐谱数据S2的各音符的音符数据N而生成该1个音符的单位数据U。即，针对乐曲的每个音符而生成单位数据U。与任意的1个音符(以下称为“第2音符”)相对应的单位数据U对与该第2音符的演奏相关的信息进行指定。具体地说，第2音符的单位数据U包含以下例示的多个种类的信息之中的至少一种信息。

u1：第2音符的演奏强度(例如MIDI击键力度)

u2：乐谱数据S2对第2音符指定的发音点和通过演奏进行的第2音符的发音点之间的时间差(即，演奏时的发音点的误差)

u3：乐谱数据S2对第2音符指定的持续长度和通过演奏进行的第2音符的持续长度之间的差值(即，演奏时的持续长度的误差)

u4：乐谱数据S2对第2音符指定的演奏速度和通过演奏进行的第2音符的演奏速度之间的差值(即，演奏时的演奏速度的误差)

如u1～u4这样的单位数据U所包含的信息可以作为连续值进行表现，也可以通过one-hot表现进行表现。在使用one-hot表现的情况下，由单位数据U构成的演奏数据Q1是表示具有张弛度的演奏。此外，具有张弛度是指能够采用幅度大的值。在单位数据U不是通过one-hot表现而是通过连续值进行表现的情况下，单位数据U的变动变小，产生下述倾向，即，与人的演奏相比，生成稍微欠缺张弛度的演奏数据Q1。

如图2所例示那样，第1实施方式的推定处理部23通过将乐谱数据S2和变动数据V输入至训练好的模型M1而生成演奏数据Q1。变动数据V通过多维的向量进行表现，该多维的向量表示使乐曲的演奏变动的要因。变动数据V换言之是表示在乐曲的演奏中附加的音乐表现的数据。由推定处理部23生成的演奏数据Q1是表示对变动数据V所表示的变动进行了反映的乐曲的演奏。即，演奏数据Q1是表示附加有与变动数据V相对应的音乐表现的演奏。

训练好的模型M1是对包含乐谱数据S2及变动数据V在内的输入数据和演奏数据Q1之间的关系进行了学习的统计性预测模型。具体地说，训练好的模型M1由神经网络构成。例如，训练好的模型M1是包含相互地串联连接的多个长短期记忆(LSTM：Long Short TermMemory)而构成的。因此，生成在乐谱数据S2中对前后的多个音符的音符数据N的时间序列进行了反映的演奏数据Q1。

训练好的模型M1是通过程序(例如构成人工智能软件的程序模块)和多个系数K1的组合而实现的，该程序使控制装置11执行根据乐谱数据S2及变动数据V而生成演奏数据Q1的运算，该多个系数K1应用于该运算。对训练好的模型M1进行规定的多个系数K1是通过利用了大量的学习数据的机器学习(机器训练)(特别是深层学习)而被设定并保存于存储装置12。关于训练好的模型M1的机器学习(机器训练)在后面记述。

第1实施方式的训练好的模型M1是包含VAE(Variational Auto Encoder)的解码器而构成的。具体地说，训练好的模型M1是在输入中包含已知条件(condition)的CVAE(Conditional VAE)的解码器。乐谱数据S2相当于CVAE的已知条件，变动数据V相当于CVAE的潜在变量(latent)。

图2的变量控制部22将变动数据V可变地设定。第1实施方式的变量控制部22与对输入装置13的来自利用者的指示相应地设定变动数据V。图3是为了设定变动数据V而由利用者视觉识别的操作画面G的示意图。变量控制部22使显示装置14对操作画面G进行显示。操作画面G是包含坐标平面G1和指示件G2的图像。坐标平面G1表示为了方便起见而削减了变动数据V的维数的2维平面。利用者通过对输入装置13进行操作，从而能够对坐标平面G1内的指示件G2的位置进行变更。变量控制部22与坐标平面G1内的指示件G2的位置相应地对变动数据V进行设定。

图2的后处理部24根据由推定处理部23生成的演奏数据Q1和在存储装置12中存储的乐谱数据S1而生成演奏数据Q2。具体地说，后处理部24通过与演奏数据Q1相应地对与由乐谱数据S1指定的各音符相关的信息进行变更，从而生成演奏数据Q2。例如，由乐谱数据S1指定的各音符的演奏强度被变更为由该音符的单位数据U指定的演奏强度u1。由乐谱数据S1指定的各音符的发音点与由该音符的单位数据U指定的时间差u2相应地被调整。另外，由乐谱数据S1指定的各音符的持续长度与由单位数据U指定的差值u3相应地被调整，由乐谱数据S1指定的各音符的演奏速度与由单位数据U指定的差值u4相应地被调整。由后处理部24生成的演奏数据Q2与乐谱数据S1同样地，例如是MIDI形式或者MusicXML形式的文件。

图4是例示由控制装置11根据乐谱数据S1而生成演奏数据Q2的处理的具体顺序的流程图。例如以针对输入装置13的来自利用者的指示为契机而开始图4的处理。

如果开始图4的处理，则变量控制部22与对输入装置13的来自利用者的指示相应地对变动数据V进行设定(Sa1)。前处理部21根据在存储装置12中存储的乐谱数据S1而生成乐谱数据S2(Sa2)。推定处理部23将由前处理部21生成的乐谱数据S2的各音符的音符数据N和由变量控制部22设定出的变动数据V输入至训练好的模型M1，由此生成演奏数据Q1的各音符的单位数据U(Sa3)。后处理部24根据由推定处理部23生成的演奏数据Q1和乐谱数据S1而生成演奏数据Q2(Sa4)。

如以上说明所述，在第1实施方式中，通过将乐谱数据S2和可变的变动数据V输入至训练好的模型M1，从而生成演奏数据Q1，因此能够针对一个乐曲的乐谱数据S2而生成表示与变动数据V相对应的多样的演奏的演奏数据Q1。

＜第2实施方式＞

对本发明的第2实施方式进行说明。此外，在以下的各例示中关于功能与第1实施方式相同的要素，沿用在第1实施方式的说明中所使用的标号而适当地省略各自详细的说明。第1实施方式的信息处理装置100A是根据乐谱数据S1和变动数据V而生成演奏数据Q2。第2实施方式的信息处理装置100B是根据乐谱数据S1和演奏数据Q2而生成变动数据V。

图5是例示第2实施方式中的信息处理装置100B的结构的框图。如图5所例示那样，第2实施方式的信息处理装置100B具有控制装置11、存储装置12和输入装置13。如图5所例示那样，第2实施方式的存储装置12对乐谱数据S1和演奏数据Q2进行存储。演奏数据Q2通过对由利用者实施的演奏进行收录而事先存储于存储装置12。演奏数据Q2所表示的演奏是针对乐谱数据S1所表示的乐谱由利用者任意地附加了音乐表现的演奏。在存储装置12中，分别针对附加有不同的音乐表现的各种演奏，对表示该演奏的演奏数据Q2进行存储。利用者通过适当地对输入装置13进行操作，从而能够将在存储装置12中存储的多个演奏的演奏数据Q2之中的任意的演奏的演奏数据Q2选择为处理对象。

图6是例示第2实施方式中的信息处理装置100B的功能性结构的框图。如图6所例示那样，控制装置11通过执行在存储装置12中存储的程序，从而实现用于根据乐谱数据S1及演奏数据Q2而生成变动数据V的多个功能(前处理部31、前处理部32及推定处理部33)。

前处理部31与第1实施方式的前处理部21同样地，根据乐谱数据S1而生成乐谱数据S2。乐谱数据S2如前述那样，是由与乐谱数据S1所表示的乐曲的不同的多个音符相对应的音符数据N的时间序列构成的。

前处理部32根据在存储装置12中存储的多个演奏的演奏数据Q2之中的由利用者选择出的演奏的演奏数据Q2而生成演奏数据Q1。演奏数据Q1如前述那样，是由与乐曲的不同的多个音符相对应的单位数据U的时间序列构成的。前处理部32根据演奏数据Q2和乐谱数据S1而生成演奏数据Q1。具体地说，前处理部32通过将演奏数据Q2和乐谱数据S1进行对比，从而针对每个音符而依次生成对多个种类的信息(u1～u4)进行指定的单位数据U。

推定处理部33根据由前处理部31生成的乐谱数据S2和由前处理部32生成的演奏数据Q1而生成变动数据V。具体地说，针对各音符，依次生成乐谱数据S2的音符数据N和演奏数据Q1的单位数据U的组，针对如上所述的各组，依次生成变动数据V。变动数据V如前述那样，是表示使乐曲的演奏变动的要因的向量。第2实施方式的变动数据V相当于表示在演奏数据Q1所表示的演奏中附加的音乐表现的数据。音乐表现根据演奏数据Q1而产生差异，因此由第2实施方式的推定处理部33生成的变动数据V根据演奏数据Q1而产生差异。

如图6所例示那样，第2实施方式的推定处理部33通过将乐谱数据S2和演奏数据Q1输入至训练好的模型M2，从而生成变动数据V。训练好的模型M2是对包含乐谱数据S2和演奏数据Q1在内的输入数据和变动数据V之间的关系进行了学习(训练)的统计性预测模型。具体地说，训练好的模型M2由神经网络构成。例如，训练好的模型M2与训练好的模型M1同样地，是包含相互地串联连接的多个长短期记忆(LSTM)而构成的。因此，生成下述的变动数据V，即，该变动数据V反映有在乐谱数据S2中相继前后的多个音符的音符数据N的时间序列、以及在演奏数据Q1中相继前后的多个音符的单位数据U的时间序列。

训练好的模型M2是通过程序(例如构成人工智能软件的程序模块)和多个系数K2的组合而实现的，该程序使控制装置11执行根据乐谱数据S2及演奏数据Q1而生成变动数据V的运算，该多个系数K2应用于该运算。对训练好的模型M2进行规定的多个系数K2是通过利用了大量的学习数据的机器学习(训练)(特别是深层学习)而被设定并保存于存储装置12。关于训练好的模型M2的机器学习在后面记述。

第2实施方式的训练好的模型M2是包含VAE的编码器而构成的。具体地说，训练好的模型M2是在输入中包含已知条件(condition)的CVAE的编码器。乐谱数据S2相当于CVAE的已知条件，变动数据V相当于CVAE的潜在变量(latent)。即，训练好的模型M2决定与乐谱数据S2的音符数据N和演奏数据Q1的单位数据U相对应的概率分布的平均及分散，从该概率分布对变动数据V进行提取(采样)。

图7是例示控制装置11根据乐谱数据S1及演奏数据Q2而生成变动数据V的处理的具体顺序的流程图。例如以对输入装置13的来自利用者的指示为契机而开始图7的处理。

如果开始图7的处理，则前处理部31根据乐谱数据S1而生成乐谱数据S2(Sb1)。另外，前处理部32根据通过对输入装置13的操作而由利用者选择出的演奏数据Q2，生成演奏数据Q1(Sb2)。此外，也可以将乐谱数据S2的生成(Sb1)和演奏数据Q1的生成(Sb2)的顺序逆转。推定处理部33通过将由前处理部31生成的乐谱数据S2的各音符的音符数据N和由前处理部32生成的演奏数据Q1的各音符的单位数据U输入至训练好的模型M2，从而针对每个音符而生成变动数据V(Sb3)。

如以上说明所述，在第2实施方式中，通过将乐谱数据S2和演奏数据Q1输入至训练好的模型M2，从而生成变动数据V，因此与不利用乐谱数据S2而是利用对演奏数据Q1和变动数据V之间的关系进行了学习(训练)的训练好的模型生成变动数据V的结构相比较，能够生成降低了对乐谱的依赖的适当的变动数据V。

由推定处理部33生成的变动数据V的时间序列被利用于各种用途。例如，通过第1实施方式的结构针对除了在变动数据V的生成所利用的乐曲以外的任意的乐曲的乐谱数据S1而附加变动数据V所表示的音乐表现，由此能够生成演奏数据Q2，该演奏数据Q2表示将变动数据V所表示的音乐表现附加于任意的乐曲的情况下的演奏。

另外，也可以是将表示由演奏者进行的演奏的演奏数据Q2与演奏并行地实时供给至前处理部32，推定处理部33与演奏并行地实时生成与该演奏数据Q2相对应的变动数据V。通过对由演奏者进行演奏的乐曲的乐谱数据S1而附加变动数据V的音乐表现，从而生成演奏数据Q2，与由演奏者进行的演奏并行地将该演奏数据Q2供给至自动演奏乐器。自动演奏乐器例如是能够自动演奏的键盘乐器，与演奏数据Q2相应地执行乐曲的自动演奏。根据以上的结构，能够通过与由演奏者进行的演奏相同的音乐表现，与该演奏并行地自动演奏乐曲。

＜第3实施方式＞

图8是例示第3实施方式中的信息处理装置100C的结构的框图。第3实施方式的信息处理装置100C是通过机器学习而生成第1实施方式的训练好的模型M1和第2实施方式的训练好的模型M2的机器学习装置，如图8所例示那样，具有控制装置11和存储装置12。

如图8所例示那样，第3实施方式的存储装置12对机器学习所利用的多个数据集的学习数据T1(第1学习数据的例示)进行存储。各数据集的学习数据T1是包含表示乐曲的乐谱的乐谱数据S2和表示该乐曲的演奏的演奏数据Q1而构成的。乐谱数据S2如第1实施方式及第2实施方式的例示那样，是由乐曲的不同的多个音符所对应的音符数据N的时间序列构成的。演奏数据Q1如第1实施方式及第2实施方式的例示那样，是由乐曲的不同的多个音符所对应的单位数据U的时间序列构成的。分别包含音乐表现不同的多个演奏的演奏数据Q1在内的多个数据集的学习数据T1关于多个乐曲而存储于存储装置12。

图9是例示第3实施方式所涉及的信息处理装置100C的功能性结构的框图。如图9所例示那样，第3实施方式的控制装置11作为执行机器学习的学习处理部41起作用，该机器学习是通过执行在存储装置12中存储的程序，从而生成第1实施方式的训练好的模型M1和第2实施方式的训练好的模型M2。学习处理部41是包含更新处理部42而构成的。更新处理部42反复地更新对训练好的模型M1进行规定的多个系数K1和对训练好的模型M2进行规定的多个系数K2。

如图9所例示那样，学习处理部41关于暂定模型X和暂定模型Y而执行机器学习。暂定模型X(第1暂定模型的例示)是处于训练好的模型M2的学习过程的暂定性模型。即，通过机器学习而完成了多个系数K2的更新的阶段的暂定模型X被利用为第2实施方式的训练好的模型M2。另一方面，暂定模型Y(第2暂定模型的例示)是处于训练好的模型M1的学习过程的暂定性模型。即，通过机器学习而完成了多个系数K1的更新的阶段的暂定模型Y被利用为第1实施方式的训练好的模型M1。

如图9所例示那样，包含乐谱数据S2和演奏数据Q1在内的学习数据T1输入至暂定模型X。暂定模型X是根据学习数据T1而生成变动数据V(潜在变量)的CVAE的编码器。另一方面，向暂定模型Y输入包含学习数据T1的乐谱数据S2和由暂定模型X生成的变动数据V在内的学习数据T2(第2学习数据的例示)。暂定模型Y是根据学习数据T2而生成演奏数据Q1(以下称为“推定数据Qe”)的CVAE的解码器。

更新处理部42将暂定模型X的多个系数K2和暂定模型Y的多个系数K1反复地更新，以使得学习数据T1的演奏数据Q1和由暂定模型Y生成的推定数据Qe接近，且由暂定模型X生成的变动数据V的概率分布接近特定的概率分布(以下称为“目标分布”)。目标分布例如为平均0及分散1的正态分布N(0，1)。具体地说，学习处理部41通过概率梯度下降法将多个系数K1和多个系数K2反复地更新，以使得通过以下的算式(1)表现的评价函数F减小(在理想情况是最小化)。

F＝La(Q1，Qe)+Lb(λ(V)，N(0，1))…(1)

算式(1)的右边的第1项(La(Q1，Qe))相当于演奏数据Q1和推定数据Qe之间的误差。此外，实际上，通过将演奏数据Q1的单位数据U和推定数据Qe的单位数据U之间的误差E在乐曲内的多个音符的范围进行合计，从而对误差La(Q1，Qe)进行计算。另一方面，算式(1)的右边的第2项(Lb(λ(V)，N(0，1)))相当于变动数据V的概率分布λ(V)和目标分布N(0，1)之间的误差(例如KL散度)。如根据以上的说明所理解那样，通过将评价函数F最小化，从而演奏数据Q1和推定数据Qe接近，且变动数据V的概率分布λ(V)接近目标分布N(0，1)。

演奏数据Q1的单位数据U(u1～u4)和推定数据Qe的单位数据U(u1～u4)之间的误差E，是演奏强度u1的误差e1、发音点的时间差u2的误差e2、持续长度的差值u3的误差e3和演奏速度的差值u4的误差e4的合计。

演奏强度u1在本实施方式中，对应于在最小值至最大值的范围内分布的Z档的数值的任意者。演奏强度u1通过Z个要素之中的与该演奏强度u1的数值相对应的1个要素被设定为1、剩余的(Z－1)个要素被设定为0的Z维的演奏强度向量进行表现(one-hot表现)。演奏数据Q1和推定数据Qe之间的演奏强度u1的误差e1例如是演奏数据Q1的演奏强度向量相对于推定数据Qe的演奏强度向量的互熵。

发音点的时间差u2的误差e2是由演奏数据Q1的单位数据U指定的时间差u2(Q1)和由推定数据Qe的单位数据U指定的时间差u2(Qe)之间的差值的绝对值|u2(Qe)－u2(Q1)|。同样地，持续长度的差值u3的误差e3是由演奏数据Q1的单位数据U指定的持续长度的差值u3(Q1)和由推定数据Qe的单位数据U指定的持续长度的差值u3(Qe)之间的差值的绝对值|u3(Qe)－u3(Q1)|。演奏速度的差值u4的误差e4是由演奏数据Q1的单位数据U指定的演奏速度的差值u4(Q1)和由推定数据Qe的单位数据U指定的演奏速度的差值u4(Qe)之间的差值的绝对值|u4(Qe)－u4(Q1)|。

图10是例示控制装置11生成训练好的模型M1及训练好的模型M2的处理(机器学习方法)的具体顺序的流程图。例如以来自利用者的指示为契机而开始图10的处理。

如果开始图10的处理，则学习处理部41将在存储装置12中存储的学习数据T1输入至暂定模型X(Sc1)。暂定模型X生成与学习数据T1相对应的变动数据V(Sc2)。学习处理部41将包含学习数据T1的乐谱数据S2和由暂定模型X生成的变动数据V在内的学习数据T2输入至暂定模型Y(Sc3)。暂定模型Y生成与学习数据T2相对应的推定数据Qe(Sc4)。更新处理部42对暂定模型X的多个系数K2和暂定模型Y的多个系数K1进行更新，以使得演奏数据Q1和推定数据Qe接近，且变动数据V的概率分布λ(V)接近目标分布N(0，1)(Sc5)。以上所说明的处理(Sc1～Sc5)通过关于多个数据集的学习数据T1反复进行，从而生成训练好的模型M1及训练好的模型M2。

如以上说明所述，根据第3实施方式，能够一并地生成训练好的模型M2和训练好的模型M1，该训练好的模型M2能够生成减少了针对乐谱的依赖的适当的变动数据V，该训练好的模型M1能够针对一个乐曲的乐谱数据S2而生成表示与变动数据V相对应的多样的演奏的演奏数据Q1。

＜第4实施方式＞

图8例示第3实施方式中的信息处理装置100C的结构，并且还例示第4实施方式中的信息处理装置100D的结构。两个实施方式所涉及的信息处理装置100C及100D在硬件结构上相同，具有控制装置11和存储装置12。另外，第4实施方式中的信息处理装置100D在软件结构上也共通地具有关于第1实施方式至第3实施方式至此为止所说明的各种要素。由此，为了简化，关于附带有相同的参照标号的要素，只要没有特别说明，则设为具有相同的结构及功能。

如图8所例示那样，第4实施方式的存储装置12也与第3实施方式中的信息处理装置100C同样地，对多个数据集的学习数据T1进行存储。各数据集的学习数据T1所包含的演奏数据Q1是用于对暂定模型X4进行学习的学习数据，各数据集的学习数据T1所包含的乐谱数据S2是用于对暂定模型Y4进行机器学习的学习数据。如果学习(训练)完暂定模型X4，则成为训练好的模型M42，如果学习(训练)完暂定模型Y4，则成为训练好的模型M41。

图11是例示第4实施方式所涉及的信息处理装置100D的功能性结构的框图。如图11所例示那样，第4实施方式的控制装置11作为执行机器学习的学习处理部441起作用，该机器学习通过执行在存储装置12中存储的程序，从而生成2个训练好的模型M41及M42。学习处理部441包含更新处理部442。更新处理部442反复地更新对训练好的模型M41进行规定的多个系数K41和对训练好的模型M42进行规定的多个系数K42。

学习处理部441关于暂定模型X4及Y4而执行机器学习。暂定模型X4(第1暂定模型的例示)是处于训练好的模型M42的学习过程的暂定性模型。即，通过机器学习而完成了多个系数K42的更新的阶段的暂定模型X4被利用为训练好的模型M42。另一方面，暂定模型Y4(第2暂定模型的例示)是处于训练好的模型M41的学习过程的暂定性模型。即，通过机器学习而完成了多个系数K41的更新的阶段的暂定模型Y4被利用为训练好的模型M41。

训练好的模型M41与第1实施方式的训练好的模型M1同样地，是对包含乐谱数据S2及变动数据V在内的输入数据与演奏数据Q1之间的关系进行了学习(训练)的统计性预测模型。具体地说，训练好的模型M41是由神经网络构成的。例如，训练好的模型M41包含相互地串联连接的多个长短期记忆(LSTM)。因此，生成反映了在乐谱数据S2中相继前后的多个音符的音符数据N的时间序列的演奏数据Q1。

训练好的模型M41是通过程序(例如构成人工智能软件的程序模块)和多个系数K41的组合而实现的，该程序使控制装置11执行根据乐谱数据S2及变动数据V而生成演奏数据Q1的运算，该多个系数K41应用于该运算。对训练好的模型M41进行规定的多个系数K41是通过利用了大量的学习数据的机器学习(特别是深层学习)而被设定并保存于存储装置12。

第4实施方式的训练好的模型M41是VAE(Variational Auto Encoder)的变体即VRNN(Variational Recurrent Neural Network)的解码器。具体地说，训练好的模型M41是在输入中包含已知条件(condition)的CVRNN(Conditional VRNN)的解码器。乐谱数据S2相当于CVRNN的已知条件，变动数据V相当于CVRNN的潜在变量(latent)。

另一方面，训练好的模型M42与第2实施方式的训练好的模型M2同样地，是对包含演奏数据Q1在内的输入数据和变动数据V之间的关系进行了学习(训练)的统计性预测模型。但是，不同于训练好的模型M2，在输入数据中不包含乐谱数据S2。具体地说，训练好的模型M42是由神经网络构成的。例如，训练好的模型M42与训练好的模型M41同样地，包含相互地串联连接的多个长短期记忆(LSTM)。因此，生成反映了在演奏数据Q1中相继前后的多个音符的单位数据U的时间序列的变动数据V。

训练好的模型M42是通过程序(例如构成人工智能软件的程序模块)和多个系数K42的组合而实现的，该程序使控制装置11执行根据演奏数据Q1而生成变动数据V的运算，该多个系数K42应用于该运算。对训练好的模型M42进行规定的多个系数K42是通过利用了大量的学习数据的机器学习(特别是深层学习)而被设定并保存于存储装置12。

第4实施方式的训练好的模型M42包含CVRNN的编码器。具体地说，变动数据V相当于CVRNN的潜在变量(latent)。即，训练好的模型M42决定与演奏数据Q1的单位数据U相对应的概率分布的平均及分散，根据该概率分布对变动数据V进行提取(采样)。

如图11所例示那样，演奏数据Q1作为学习数据T41(第1学习数据的例示)而输入至暂定模型X4。暂定模型X4是根据学习数据T41而生成变动数据V(潜在变量)的CVRNN的编码器。另一方面，向暂定模型Y4输入包含学习数据T1的乐谱数据S2和由暂定模型X4生成的变动数据V在内的学习数据T42(第2学习数据的例示)。暂定模型Y4是根据学习数据T42而生成演奏数据Q1(以下称为“推定数据Qe”)的CVRNN的解码器。

更新处理部442将暂定模型X4的多个系数K42和暂定模型Y4的多个系数K41反复地更新，以使得学习数据T41的演奏数据Q1和由暂定模型Y4生成的推定数据Qe接近，且由暂定模型X4生成的变动数据V的概率分布λ4(V)接近特定的概率分布(以下称为“目标分布”)。第4实施方式的目标分布λ4'(V)是从作为先验分布的规定的模型X4'输出的、按照变动数据V的平均及分散的正态分布(参照图12)。模型X4'具有与暂定模型X4共通的状态变量h。状态变量h是通过图13所示这样的规定的模型R4定义的，本实施方式的模型R4是将当前的状态变量h、演奏数据Q1(也可以是推定数据Qe)、乐谱数据S2及变动数据V作为输入，将与下一个音符相对应的状态变量h输出的模型。模型X4'及R4均能够由神经网络构成。另外，模型R4也能够由RNN(多层LSTM等)构成。模型X4'及R4与模型M41及M42同时地被学习。即，模型X4'的多个系数K43及模型R4的多个系数K44在模型M41及M42的学习过程中，与暂定模型X4及Y4一起被反复地更新。如上所述，第4实施方式在对目标分布λ4'(V)进行学习，这一点与第3实施方式不同。

具体地说，学习处理部441通过概率梯度下降法将系数K41及K42以及系数K43及K44反复地更新，以使得通过以下的算式(2)表现的评价函数F4减小(在理想情况是最小化)。

F4＝La(Q1，Qe)+Lb(λ4(V)，λ4'(V))…(2)

算式(2)的右边的第1项(La(Q1，Qe))相当于演奏数据Q1和推定数据Qe之间的误差。此外，实际上，通过将演奏数据Q1的单位数据U和推定数据Qe的单位数据U之间的误差E在乐曲内的多个音符的范围进行合计，从而对误差La(Q1，Qe)进行计算。误差E能够与第3实施方式同样地进行计算。另一方面，算式(2)的右边的第2项(Lb(λ4(V)，λ4'(V)))相当于概率分布λ4(V)和目标分布λ4'(V)之间的误差(例如KL散度)。如根据以上的说明所理解那样，通过将评价函数F4最小化，从而演奏数据Q1和推定数据Qe接近，且变动数据V的概率分布λ4(V)接近目标分布λ4'(V)。

图14是例示控制装置11生成训练好的模型M41及M42的处理(机器学习方法)的具体顺序的流程图。例如以来自利用者的指示为契机而开始图14的处理。

如果开始图14的处理，则学习处理部441将在存储装置12中存储的演奏数据Q1作为学习数据T41，与状态变量h一起输入至暂定模型X4(Sd1)。由此，导出概率分布λ4(平均及分散)。暂定模型X4从该概率分布λ4对变动数据V进行采样，生成与演奏数据Q1相对应的变动数据V(Sd2)。学习处理部441将包含有在存储装置12中存储的乐谱数据S2和由暂定模型X4生成的变动数据V在内的学习数据T42输入至暂定模型Y4(Sd3)。暂定模型Y4生成与学习数据T42相对应的推定数据Qe(Sd4)。学习处理部441将状态变量h输入至模型X4'，导出目标分布λ4'(平均及分散)(Sd5)。更新处理部442将当前的状态变量h、由暂定模型X4生成的变动数据V、在存储装置12中存储的演奏数据Q1(也可以是由暂定模型Y4生成的推定数据Qe)及在存储装置12中存储的乐谱数据S2输入至模型R4，对状态变量h进行更新(Sd6)。更新处理部442对暂定模型X4及Y4以及模型X4'及R4进行更新(Sd7)。在Sd7中，对暂定模型X4的多个系数K42、暂定模型Y4的多个系数K41、模型X4'的多个系数K43和模型R4的多个系数K44进行更新，以使得演奏数据Q1和推定数据Qe接近，且变动数据V的概率分布λ4(V)接近更新后的目标分布λ4'(V)。以上所说明的处理(Sd1～Sd7)通过关于多个数据集的学习数据T1而反复进行，从而生成训练好的模型M41及训练好的模型M42。此外，处理Sd1～Sd6以1个音符为单位被重复执行。处理Sd7对于针对学习数据T1而累积的误差(评价函数F4)被重复执行。

如以上说明的那样，根据第4实施方式，能够一并地生成训练好的模型M42和训练好的模型M41，该训练好的模型M42能够生成变动数据V，该训练好的模型M41能够针对一个乐曲的乐谱数据S2而生成表示与变动数据V相对应的多样的演奏的演奏数据Q1。

在第4实施方式中，相对于第3实施方式而具有以下的优点。首先，如根据以上的说明所理解那样，变动数据V与暂定模型X4内的状态变量h相应地被采样，但在生成变动数据V时不使用乐谱数据S2。变动数据V如上所述从乐谱数据S2独立，由此能够从乐谱数据S2所表现的音乐环境分离，更抽象地对音乐表现进行表现。其结果，在变动数据V中，不是获得以音符为单位的微观的信息(例如1个音符的强弱、长度等)，而是获得乐曲的“流向”这样的宏观的信息。

接下来，演奏数据Q1依赖于变动数据V及乐谱数据S2，但不依赖于暂定模型X4内的状态变量h。更准确地说，演奏数据Q1经由变动数据V而间接地依赖于在变动数据V的背后的暂定模型X4内的状态变量h。其结果，阻碍状态变量h直接参与演奏数据Q1的生成，在变动数据V中将演奏的笼统的表情进行符号化。换言之，演奏数据Q1从乐谱数据S2获得微观的信息，变动数据V及暂定模型X4内的状态变量h以获得宏观的信息的方式被引导。在状态变量h中，获得可得到演奏的表情的转变。以上的情况在变动数据V对有意义的音乐表现进行学习的方面变得重要。假设在演奏数据Q1直接依赖于模型内的状态变量的情况下，变动数据V的存在基本被忽略，只是学习仅使用状态变量的演奏数据Q1的自回归模型这样的模型。其原因在于，生成上述这样的模型，这对于模型而言，与进行学习以使得能够说明音乐表现的差相比，进行学习以使得仅能够对下一个音符进行预测这样的学习容易许多。以上的结果为，变动数据V进一步对音乐表现进行表现，仅对变动数据V进行操作，就能够对一贯的演奏的表情(例如整体上的强弱、变音等)进行操作。另外，比较低维的方式表现变动数据V，操作容易，因此能够容易地使音乐表现变化。

此外，在第4实施方式中生成的训练好的模型M41及M42各自能够取代第1实施方式的训练好的模型M1及第2实施方式的训练好的模型M2而安装于信息处理装置100A的推定处理部23及信息处理装置100B的推定处理部33。在该情况下，能够通过训练好的模型M41针对一个乐曲而生成表示多样的演奏的演奏数据Q1，能够通过训练好的模型M42生成降低了针对乐谱的依赖的适当的变动数据V。

＜变形例＞

下面，对在以上例示出的各方式中附加的具体的变形方式进行例示。可以将从下面的例示中任意地选择出的2个以上的方式在不相互矛盾的范围适当地合并。

(1)在第1实施方式中，在生成演奏数据Q1前设定出变动数据V，但变量控制部22也可以与演奏数据Q1的生成并行地使变动数据V阶段性或者连续性地变化。即，在演奏数据Q1的与多个音符相对应的单位数据U的时间序列中反映的变动数据V时间性地发生变化。

(2)在第1实施方式(图2)中，前处理部21根据乐谱数据S1而生成乐谱数据S2，但也可以在存储装置12中对乐谱数据S2进行存储，将该乐谱数据S2输入至推定处理部23。在乐谱数据S2存储于存储装置12的结构中，前处理部21被省略。在第2实施方式(图6)中也同样地，根据将在存储装置12中存储的乐谱数据S2输入至推定处理部33的结构，前处理部31被省略。

(3)在第1实施方式中，后处理部24根据演奏数据Q1而生成演奏数据Q2，但也可以省略演奏数据Q2的生成(即后处理部24)。另外，在第2实施方式(图6)中，前处理部32根据演奏数据Q2而生成演奏数据Q1，但也可以在存储装置12中对演奏数据Q1进行存储，将该演奏数据Q1输入至推定处理部33。在演奏数据Q1存储于存储装置12的结构中，前处理部32被省略。

(4)如在前述的各方式中说明的那样，乐谱数据S2的各音符的音符数据N所包含的特征向量n10是通过卷积神经网络(CNN)等训练好的模型而生成的。可以将用于生成特征向量n10的统计性推定模型(以下称为“特征提取模型”)在第3实施方式中的机器学习过程中与训练好的模型M1及训练好的模型M2一起生成。

图15是例示第3实施方式的变形例中的信息处理装置100C的功能性结构的框图。如图15所例示那样，学习处理部41在与第3实施方式相同的要素(暂定模型X、暂定模型Y及更新处理部42)的基础上还具有前处理部51。前处理部51与第1实施方式的前处理部21及第2实施方式的前处理部31同样地，根据乐谱数据S1而生成乐谱数据S2。如图15所例示那样，前处理部51是包含暂定性的特征提取模型52而构成的，该暂定性的特征提取模型52根据乐谱数据S1生成乐谱数据S2的特征向量n10。特征提取模型52例如是通过多个系数进行规定的卷积神经网络。

图15的更新处理部42将暂定模型X的多个系数K2及暂定模型Y的多个系数K1和暂定性的特征提取模型52的多个系数反复地更新，以使得演奏数据Q1和推定数据Qe接近、且变动数据V的概率分布λ(V)和目标分布N(0，1)接近。通过反复进行各系数的更新，从而生成训练好的特征提取模型52。训练好的特征提取模型52搭载于第1实施方式的前处理部21或者第2实施方式的前处理部31，根据乐谱数据S1而生成乐谱数据S2的音符数据N中的特征向量n10。根据以上的结构，能够生成特征提取模型52，该特征提取模型52能够适当地提取乐谱数据S2的音符数据N中的特征向量n10。

同样地，关于第4实施方式的输入至暂定模型Y4的乐谱数据S2，也可以由安装有如上述的特征提取模型52的前处理部51生成。并且，在该情况下，与以上同样地，可以同时对暂定模型X4、暂定模型Y4及特征提取模型52进行学习。

(5)也能够通过第2实施方式而生成表示不同的多个音乐表现的变动数据V，通过表示多个音乐表现的变动数据V的组合而生成表示任意的音乐表现的变动数据V。例如，设想由第2实施方式的推定处理部33生成表示不同的音乐表现的4种变动数据V1～V4的情况。变动数据V1和变动数据V2表示演奏速度不同的音乐表现，变动数据V3和变动数据V4表示演奏强度不同的音乐表现。控制装置11通过下面的算式(2)的运算而生成变动数据Vnew。

Vnew＝a(V1－V2)+b(V3－V4)…(2)

算式(2)的记号a及记号b为规定的常数。算式(2)的右边的第1项中的差值(V1－V2)是与变动数据V1所表示的演奏速度和变动数据V2所表示的演奏速度之间的差值相当的音乐表现。另一方面，算式(2)的右边的第2项中的差值(V3－V4)是与变动数据V3所表示的演奏强度和变动数据V4所表示的演奏强度之间的差值相当的音乐表现。根据以上的结构，能够生成表示多样的音乐表现的变动数据Vnew。

(6)可以针对由第2实施方式的推定处理部33生成的变动数据V而执行插补处理。例如，推定处理部33根据乐谱数据S1和表示由演奏者A进行的演奏的演奏数据Q2a而生成变动数据Va。另外，推定处理部33根据乐谱数据S1和表示由演奏者B进行的演奏的演奏数据Q2b而生成变动数据Vb。控制装置11通过变动数据Va和变动数据Vb之间的插补处理，生成表示演奏者A特有的音乐表现和演奏者B特有的音乐表现的中间性的音乐表现的变动数据V。

(7)前述的各方式所涉及的信息处理装置100(100A、100B、100C)的功能是通过计算机(例如控制装置11)和程序的协同动作而实现的。本发明的优选的方式所涉及的程序通过储存于计算机可读取的记录介质的方式被提供而安装于计算机。记录介质例如为非易失性(non-transitory)的记录介质，CD-ROM等光学式记录介质(光盘)为优选例，但也包含半导体记录介质或者磁记录介质等公知的任意形式的记录介质。此外，非易失性的记录介质包含暂时性的传输信号(transitory，propagating signal)以外的任意的记录介质，并不是将易失性的记录介质排除在外。另外，也能够通过经由通信网的传送的方式将程序提供给计算机。

(8)用于实现训练好的模型(M1、M2)及特征提取模型52的人工智能软件的执行主体并不限定于CPU。例如，Tensor Processing Unit及Neural Engine等神经网络专用的处理电路、或者人工智能所专用的DSP(Digital Signal Processor)也可以执行人工智能软件。另外，从以上的例示选择出的多种处理电路可以协同动作而执行人工智能软件。

(9)在通过第1实施方式、第2实施方式及变形例(4)中的前处理部21、31及51生成乐谱数据S2时，可以使用图16所示这样的统计性推定模型(以下称为“特征提取模型”)53。特征提取模型53是将CNN和递归型神经网络(RNN:Recurrent Neural Network)结合的网络(CNN-RNN:Convolutional Recurrent Network)。具体地说，首先，生成将以上说明的向量n1～n9和以上说明的CNN(由标号531表示)的输出即特征向量n10连接的连接数据M。连接数据M是以音符的单位依次生成的。接下来，将连接数据M依次输入至多层感知器532，依次使用线性层(省略图示)将多层感知器532的输出嵌入至规定的维数。嵌入的向量依次输入至由堆叠多层的门控的递归型单元(GRU:Gated Recurrent Unit)构成的RNN 533。各层的GRU具有与嵌入的向量的维数相同数量的神经元。接下来，将依次取得的RNN 533的输出和多层感知器532的输出进行连接，设为音符数据N。最后，通过将以上述方式按照音符的单位依次生成的音符数据N进行连结，从而生成乐谱数据S2。由此，生成对原来的乐谱进行了概括的更低维的乐谱数据S2。在使用如上所述的乐谱数据S2的情况下，乐曲所包含的旋律、声音容易被识别。

在用于根据乐谱数据S1而生成乐谱数据S2的特征提取模型53应用于变形例(4)的情况下，该模型53在机器学习过程与训练好的模型M1及训练好的模型M2一起被生成。在该情况下，图15所示的前处理部51是取代生成特征向量n10的暂定性的特征提取模型52而包含暂定性的特征提取模型53而构成的。另外，在变形例(4)应用于第4实施方式的情况下，也能够取代特征提取模型52而使用特征提取模型53。

＜附记＞

根据以上例示出的方式，例如掌握以下的结构。

本发明的优选的方式(第1方式)所涉及的信息处理方法包含：通过将表示乐曲的乐谱的乐谱数据和表示使演奏变动的要因的变动数据输入至训练好的模型，从而生成表示对由所述要因引起的变动进行了反映的所述乐曲的演奏的演奏数据。根据以上的方式，输入乐谱数据和可变的变动数据而生成演奏数据，因此能够生成表示与变动数据相对应的多样的演奏的演奏数据。此外，第1方式中的训练好的模型例如为CVAE的解码器、CVRNN的解码器。例如前述的第1实施方式相当于第1方式的具体例。

在第1方式的优选例(第2方式)中，所述乐谱数据包含与所述乐曲的不同的音符各自相对应的音符数据，与所述乐曲内的第1音符相对应的音符数据包含所述乐曲的拍子、所述乐曲的调号、所述第1音符的音高、所述第1音符的音阶、小节内的所述第1音符的位置、所述第1音符相对于紧跟其前的音符的发音点的时间差、所述第1音符的演奏强度、所述第1音符的演奏记号、所述第1音符的演奏速度、以及在所述乐曲内表示包含所述第1音符的区间的特征的特征向量之中的至少一个。根据以上的方式，能够生成适当地反映了在乐曲中使演奏变动的要因的演奏数据。

在第1方式或第2方式的优选例(第3方式)中，所述演奏数据包含与所述乐曲的不同的音符各自相对应的单位数据，与所述乐曲内的第2音符相对应的单位数据包含所述第2音符的演奏强度、通过所述乐谱对所述第2音符进行指定的发音点和通过演奏进行的所述第2音符的发音点之间的时间差、通过所述乐谱对所述第2音符进行指定的持续长度和通过演奏进行的所述第2音符的持续长度之间的差值、通过所述乐谱对所述第2音符进行指定的演奏速度和通过演奏进行的所述第2音符的演奏速度之间的差值之中的至少一个。根据以上的方式，能够生成适当地反映了在乐曲中使演奏变动的要因的演奏数据。

本发明的优选的方式(第4方式)所涉及的信息处理方法包含：通过将包含表示乐曲的演奏的演奏数据在内的第1学习数据输入至第1暂定模型，从而生成表示使演奏变动的要因的变动变量而按照特定的概率分布的变动数据；通过将包含表示所述乐曲的乐谱的乐谱数据和由所述第1暂定模型生成的变动数据在内的第2学习数据输入至第2暂定模型，从而生成表示对由所述要因引起的变动进行了反映的所述乐曲的演奏的推定数据；以及将对所述第1暂定模型进行规定的多个系数和对所述第2暂定模型进行规定的多个系数更新，以使得所述第1学习数据的所述演奏数据和由所述第2暂定模型生成的所述推定数据接近，且由所述第1暂定模型生成的变动数据的概率分布接近特定的目标分布。根据以上的方式，能够生成下述模型：能够生成降低了针对乐谱的依赖的适当的变动数据的训练好的模型(机器学习的第1暂定模型)和能够生成表示与变动数据相对应的多样的演奏的演奏数据的训练好的模型(机器学习的第2暂定模型)。例如前述的第3实施方式及第4实施方式相当于第4方式的具体例。

在第4方式的优选例(第5方式)中，所述第1学习数据还包含所述乐谱数据。例如前述的第3实施方式相当于第5方式的具体例。

在第4方式的优选例(第6方式)中，所述信息处理方法还包含：将决定所述特定的概率分布的所述第1暂定模型的状态变量输入至先验分布，由此生成所述特定的目标分布，对所述先验分布进行规定的系数与对所述第1暂定模型进行规定的多个系数和对所述第2暂定模型进行规定的多个系数一起更新。例如前述的第4实施方式相当于第6方式的具体例。

本发明的优选的方式(第7方式)所涉及的信息处理方法，通过将表示乐曲的演奏的演奏数据输入至训练好的模型，从而生成表示使演奏变动的要因的变量、且按照特定的概率分布的潜在变量。根据以上的方式，通过将演奏数据输入至训练好的模型而生成变动数据。根据该方法，能够生成降低了针对乐谱的依赖的适当的变动数据。此外，第7方式中的训练好的模型例如是CVRNN的编码器。例如将前述的第4实施方式的训练好的模型M42应用于第2实施方式的推定处理部33的情况相当于第7方式的具体例。

本发明的优选的方式(第8方式)所涉及的信息处理方法，通过将表示乐曲的乐谱的乐谱数据和表示所述乐曲的演奏的演奏数据输入至训练好的模型，从而生成表示使演奏变动的要因的变量、且按照特定的概率分布的潜在变量。根据以上的方式，通过将乐谱数据和演奏数据输入至训练好的模型而生成变动数据。因此，与不利用乐谱数据而是利用对演奏数据和变动数据之间的关系进行了学习的训练好的模型而生成变动数据的结构相比较，能够生成降低了针对乐谱的依赖的适当的变动数据。此外，第8方式中的训练好的模型例如是CVAE的编码器。例如前述的第2实施方式相当于第5方式的具体例。

作为执行以上例示出的各方式的信息处理方法的信息处理装置、或者使计算机执行以上例示出的各方式的信息处理方法的程序，也会实现本发明的优选的方式。

标号的说明

100A、100B、100C、100D…信息处理装置，11…控制装置，12…存储装置，13…输入装置，14…显示装置，15…音源装置，16…放音装置，21…前处理部，22…变量控制部，23…推定处理部，24…后处理部，31…前处理部，32…前处理部，33…推定处理部，41…学习处理部，42…更新处理部，51…前处理部，52…特征提取模型，53…特征提取模型441…学习处理部，442…更新处理部。

Claims

1.一种信息处理方法，其由计算机实现，

该信息处理方法包含：

通过将包含表示乐曲的演奏的演奏数据在内的第1学习数据输入至第1暂定模型，从而生成表示使演奏变动的要因的变动变量而按照特定的概率分布的变动数据；

通过将包含表示所述乐曲的乐谱的乐谱数据和由所述第1暂定模型生成的变动数据在内的第2学习数据输入至第2暂定模型，从而生成表示对由所述要因引起的变动进行了反映的所述乐曲的演奏的演奏数据。

2.根据权利要求1所述的信息处理方法，其中，

所述乐谱数据包含与所述乐曲的不同的音符各自相对应的音符数据，

与所述乐曲内的第1音符相对应的音符数据包含所述乐曲的拍子、所述乐曲的调号、所述第1音符的音高、所述第1音符的音阶、小节内的所述第1音符的位置、所述第1音符相对于紧跟其前的音符的发音点的时间差、所述第1音符的演奏强度、所述第1音符的演奏记号、所述第1音符的演奏速度、以及表示在所述乐曲内包含所述第1音符的区间的特征的特征向量之中的至少一个。

3.根据权利要求1或2所述的信息处理方法，其中，

所述演奏数据包含与所述乐曲的不同的音符各自相对应的单位数据，

与所述乐曲内的第2音符相对应的单位数据包含所述第2音符的演奏强度、通过所述乐谱对所述第2音符进行指定的发音点和通过演奏进行的所述第2音符的发音点之间的时间差、通过所述乐谱对所述第2音符进行指定的持续长度和通过演奏进行的所述第2音符的持续长度之间的差值、通过所述乐谱对所述第2音符进行指定的演奏速度和通过演奏进行的所述第2音符的演奏速度之间的差值之中的至少一个。

4.一种信息处理方法，其由计算机实现，

该信息处理方法包含：

通过将包含表示所述乐曲的乐谱的乐谱数据和由所述第1暂定模型生成的变动数据在内的第2学习数据输入至第2暂定模型，从而生成表示对由所述要因引起的变动进行了反映的所述乐曲的演奏的推定数据；以及

将对所述第1暂定模型进行规定的多个系数和对所述第2暂定模型进行规定的多个系数更新，以使得所述第1学习数据的所述演奏数据和由所述第2暂定模型生成的所述推定数据接近，且由所述第1暂定模型生成的变动数据的概率分布接近特定的目标分布。

5.根据权利要求4所述的信息处理方法，其由计算机实现，

所述第1学习数据还包含所述乐谱数据。

6.根据权利要求4所述的信息处理方法，其由计算机实现，

该信息处理方法还包含：将决定所述特定的概率分布的所述第1暂定模型的状态变量输入至先验分布，由此生成所述特定的目标分布，

对所述先验分布进行规定的系数与对所述第1暂定模型进行规定的多个系数和对所述第2暂定模型进行规定的多个系数一起更新。

7.一种信息处理装置，其具有控制部，

8.一种信息处理装置，其具有控制部，

所述控制部执行：

9.一种记录介质，其存储有程序，该程序使计算机执行：

10.一种记录介质，其存储有程序，该程序使计算机执行：