CN116710998A

CN116710998A - 信息处理系统、电子乐器、信息处理方法及程序

Info

Publication number: CN116710998A
Application number: CN202180088702.8A
Authority: CN
Inventors: 傍岛将文; 筱井暖
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2021-01-13
Filing date: 2021-12-28
Publication date: 2023-09-05
Also published as: US20230351989A1; JP7544154B2; WO2022153875A1; JPWO2022153875A1

Abstract

信息处理系统具有：第1取得部，其取得表示目标乐曲的音响的音响数据；以及生成部，其通过向对参照乐曲的音响和该参照乐曲所使用的音色之间的关系进行了学习的训练好的模型输入包含音响数据在内的输入数据，从而从训练好的模型输出表示适于目标乐曲的音色的音色数据。

Description

信息处理系统、电子乐器、信息处理方法及程序

技术领域

本发明涉及对与乐曲相关的信息进行处理的技术。

背景技术

以往提出有能够将利用者所演奏的乐曲通过多种音色的任意者进行播放的电子乐器。例如，在专利文献1公开了能够设定适合于利用者所演奏的乐曲的音色的技术。适合于乐曲的音色是事前针对每个乐曲而登记的。

专利文献1：日本特开2007－140308号公报

发明内容

但是，在专利文献1的技术中，需要针对每个乐曲而事先登记音色。因此，例如无法针对利用者制作的乐曲等未登记的新乐曲而设定合适的音色。考虑到以上情况，本发明的一个方式的一个目的在于，针对新乐曲对音色进行确定。

为了解决以上的课题，本发明的一个方式涉及的信息处理系统具有：第1取得部，其取得表示目标乐曲的音响的音响数据；以及生成部，其通过向对参照乐曲的音响和该参照乐曲所使用的音色之间的关系进行了学习的训练好的模型输入包含所述取得的音响数据在内的输入数据，从而从所述训练好的模型输出表示适于所述目标乐曲的音色的音色数据。

本发明的一个方式涉及的电子乐器具有：演奏接受部，其接受利用者进行的演奏；第1取得部，其取得表示目标乐曲的音响的音响数据；生成部，其通过向对参照乐曲的音响和该参照乐曲所使用的音色之间的关系进行了学习的训练好的模型输入包含所述取得的音响数据在内的输入数据，从而从所述训练好的模型输出表示适于所述目标乐曲的音色的音色数据；以及播放部，其与所述演奏接受部接受的演奏相对应地，对与所述音色数据相对应的音色的音响进行播放。

本发明的一个方式涉及的信息处理方法取得表示目标乐曲的音响的音响数据，通过向对参照乐曲的音响和该参照乐曲所使用的音色之间的关系进行了学习的训练好的模型输入包含所述取得的音响数据在内的输入数据，从而从所述训练好的模型输出表示适于所述目标乐曲的音色的音色数据。

本发明的一个方式涉及的程序使计算机系统作为如下功能部起作用：第1取得部，其取得表示目标乐曲的音响的音响数据；以及生成部，其通过向对参照乐曲的音响和该参照乐曲所使用的音色之间的关系进行了学习的训练好的模型输入包含所述取得的音响数据在内的输入数据，从而从所述训练好的模型输出表示适于所述目标乐曲的音色的音色数据。

附图说明

图1是例示出第1实施方式的演奏系统的结构的框图。

图2是例示出电子乐器的结构的框图。

图3是例示出信息处理系统的结构的框图。

图4是例示出信息处理系统的功能结构的框图。

图5是例示出训练好的模型的结构的框图。

图6是例示出解析处理的具体流程的流程图。

图7是例示出演奏处理的具体流程的流程图。

图8是例示出机器学习系统的结构的框图。

图9是例示出机器学习系统的功能结构的框图。

图10是例示出学习处理的具体流程的流程图。

图11是例示出第2实施方式的信息处理系统的功能结构的框图。

图12是参照数据的示意图。

图13是例示出推定处理的具体流程的流程图。

图14是选择画面的示意图。

图15是例示出控制处理的具体流程的流程图。

图16是例示出第3实施方式的电子乐器的功能结构的框图。

图17是例示出第4实施方式的演奏系统的结构的框图。

图18是例示出第5实施方式的演奏系统的结构的框图。

具体实施方式

A：第1实施方式

图1是例示出第1实施方式涉及的演奏系统100的结构的框图。演奏系统100是用于对利用者U所希望的乐曲(以下，称为“目标乐曲”)进行演奏的计算机系统，具有信号供给装置10、电子乐器20、信息处理系统30和机器学习系统40。信号供给装置10以有线或无线的方式与电子乐器20连接。电子乐器20和信息处理系统30例如经由互联网等通信网200而相互通信。

信号供给装置10将音响信号V向电子乐器20供给。音响信号V是表示目标乐曲的演奏音的波形的样本序列。例如，作为信号供给装置10而例示出将记录于CD等记录介质的音响信号V向电子乐器20供给的播放装置、或将从传送装置(省略图示)经由通信网200接收到的音响信号V向电子乐器20供给的通信设备。例如，智能手机或平板终端等信息终端也可作为信号供给装置10进行利用。另外，通过对周围的声音进行拾音而生成音响信号V的拾音装置也可作为信号供给装置10进行利用。拾音装置例如对通过利用者U进行的演奏而由乐器发音的乐音、或者利用者U以歌唱方式发音的声音进行拾音。此外，信号供给装置10可以搭载于电子乐器20。

电子乐器20是由利用者U用于对目标乐曲进行演奏的演奏设备。从信号供给装置10供给的音响信号V被从电子乐器20发送至信息处理系统30。信息处理系统30通过对音响信号V进行解析而生成伴奏数据C和音色数据Z。伴奏数据C是表示适合于目标乐曲的伴奏模式P的数据。例如，将用于对不同的多个伴奏模式P的任意者进行识别的识别信息作为伴奏数据C而生成。各伴奏模式P是表示伴奏音的信号。例如，由鼓等打乐器的乐音构成的节奏模式是伴奏模式P的一个例子。

音色数据Z是表示适合于目标乐曲的音色的数据。例如，将用于对不同的多种音色的任意者进行识别的识别信息作为音色数据Z而生成。例如，由音色数据Z指示与不同种类乐器(例如钢琴、小提琴、吉他等)对应的多种音色的任意者。另外，通过针对1种乐器的不同的奏法而发音出的多种音色的任意者可以由音色数据Z进行指示。例如，针对弦乐器，与拨弦奏法及擦弦奏法等不同的奏法对应的多种音色的任意者由音色数据Z进行指示。

由信息处理系统30生成的伴奏数据C及音色数据Z被发送至音响信号V的发送源的电子乐器20。电子乐器20并行地执行对伴奏数据C表示的伴奏模式P的伴奏音进行播放的处理和与利用者U的演奏相对应地对音色数据Z所表示的音色的演奏音进行播放的处理。如根据以上说明所理解的那样，利用者U能够与适合于希望的目标乐曲的伴奏模式P的播放并行地通过适合于目标乐曲的音色对该目标乐曲进行演奏。

图2是例示出电子乐器20的结构的框图。电子乐器20由计算机系统实现，该计算机系统具有控制装置21、存储装置22、通信装置23、演奏装置24、操作装置25、显示装置26、音源装置27和放音装置28。此外，电子乐器20除了作为单体装置而实现以外，还可以作为由彼此分体地构成的多个装置而实现。

控制装置21由对电子乐器20的各要素进行控制的单个或多个处理器构成。例如，控制装置21由CPU(Central Processing Unit)、SPU(Sound Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、或ASIC(Application Specific Integrated Circuit)等1种以上的处理器构成。

存储装置22是对控制装置21执行的程序和控制装置21使用的各种数据进行存储的单个或多个存储器。存储装置22例如由磁记录介质或半导体记录介质等公知的记录介质、或多种记录介质的组合构成。此外，可以将相对于电子乐器20能够拆装的可移动型的记录介质、或经由例如通信网200而能够由控制装置21执行读入或读出的记录介质(例如云存储)作为存储装置22而利用。此外，音响信号V可以存储于存储装置22。

第1实施方式的存储装置22对不同的多个伴奏模式P进行存储。例如，节拍(例如4分的4节拍，4分的3节拍)、乐器的种类、节奏等的音乐要素针对每个伴奏模式P而不同。存储于存储装置22的多个伴奏模式P之中将由从信息处理系统30接收到的伴奏数据C表示的伴奏模式P选择性地播放。即，播放适合于目标乐曲的伴奏模式P。

通信装置23经由通信网200与信息处理系统30进行通信。具体而言，通信装置23将目标乐曲的音响信号V发送至信息处理系统30。另外，通信装置23接收从信息处理系统30发送来的伴奏数据C及音色数据Z。此外，电子乐器20和信息处理系统30之间有无通信线路的无线区间是任意的。另外，也可以将与电子乐器20分体的通信装置23以有线或无线的方式连接于电子乐器20。作为与电子乐器20分体的通信装置23，例如利用智能手机或平板终端等信息终端。

演奏装置24是接受利用者U的演奏的输入设备。例如，演奏装置24具有与不同的音高对应的多个键排列的键盘。利用者U通过依次对演奏装置24的希望的键进行操作而对目标乐曲进行演奏。此外，演奏装置24的具体方式是任意的，不限定于键盘。演奏装置24是“演奏接受部”的一个例子。

操作装置25是接受来自利用者U的指示的输入设备。操作装置25例如是利用者U进行操作的多个操作件、或对利用者U的接触进行检测的触摸面板。显示装置26基于控制装置21的控制对图像进行显示。例如液晶显示面板或有机EL(Electroluminescence)面板等各种显示面板作为显示装置26而利用。

音源装置27生成与针对演奏装置24的演奏相对应的演奏信号A。演奏信号A是表示通过针对演奏装置24的演奏而指示的演奏音的波形的音响信号。具体而言，音源装置27生成表示与演奏装置24的多个键之中由利用者U按键的键对应的音高的乐音的演奏信号A。演奏信号A表示的演奏音的音色可变地设定为多种的音色的任意者。例如，音源装置27生成由从信息处理系统30接收到的音色数据Z表示的音色的演奏信号A。

另外，音源装置27能够生成与针对演奏装置24的演奏相对应的乐音和伴奏模式P表示的伴奏音的混合音的演奏信号A。此外，可以通过由控制装置21执行存储于存储装置22的程序而实现音源装置27的功能。即，省略在演奏信号A的生成中专用的音源装置27。另外，可以将由音源装置27生成的演奏信号A作为音响信号V而发送至信息处理系统30。

放音装置28对演奏信号A表示的演奏音进行放音。例如，扬声器或耳机作为放音装置28而利用。如根据以上说明所理解的那样，在电子乐器20从信息处理系统30接收到伴奏数据C和音色数据Z的状态下，利用者U能够与伴奏数据C表示的伴奏模式P的播放并行地，以音色数据Z表示的音色对目标乐曲进行演奏。如根据以上说明所理解的那样，第1实施方式的音源装置27及放音装置28作为播放部29起作用，将音色数据Z所表示的音色的音响与利用者U的演奏相对应地进行播放。

图3是例示出信息处理系统30的结构的框图。信息处理系统30通过具有控制装置31、存储装置32和通信装置33的计算机系统而实现。此外，信息处理系统30除了作为单体装置而实现以外，还可以作为由彼此分体地构成的多个装置而实现。

控制装置31由对信息处理系统30的各要素进行控制的单个或多个处理器构成。例如，控制装置31由CPU、SPU、DSP、FPGA、或ASIC等1种以上的处理器构成。

存储装置32是对控制装置31执行的程序和控制装置31使用的各种数据进行存储的单个或多个存储器。存储装置32例如由磁记录介质或半导体记录介质等公知的记录介质、或多种记录介质的组合构成。此外，可以将相对于信息处理系统30能够拆装的可移动型的记录介质、或经由例如通信网200而能够由控制装置31执行读入或读出的记录介质(例如云存储)作为存储装置32而利用。

通信装置33经由通信网200与电子乐器20进行通信。具体而言，通信装置33接收从电子乐器20发送来的音响信号V。另外，通信装置33将伴奏数据C及音色数据Z发送至电子乐器20。

图4是例示出信息处理系统30的功能结构的框图。信息处理系统30的控制装置31通过执行存储于存储装置32的程序而作为解析处理部50起作用。解析处理部50通过音响信号V的解析而生成伴奏数据C及音色数据Z。解析处理部50具有第1取得部51、第2取得部52和生成部53。

第1取得部51取得表示目标乐曲的演奏音的音响数据F。具体而言，第1取得部51通过对音响信号V进行解析而生成音响数据F。例如，根据音响信号V的一部分或全部而生成音响数据F。音响数据F是表示与目标乐曲的演奏音相关的时间变化的任意形式的数据。具体而言，音响数据F例如是表示演奏音的频率特性的时间序列的数据。表示例如MFCC(Mel-Frequency Cepstrum Coefficient)、MSLS(Mel-Scale Log Spectrum)、或恒Q变换(CQT：Constant-Q Transform)等频率特性的时间序列的数据作为音响数据F进行例示。音响数据F还可表现为表示与由音响信号V表示的演奏音的音色相关的特征(音色特征量)的数据。对于音响数据F的生成，例如可以任意地采用短时间傅里叶变换等公知的频率解析。此外，可以将构成音响信号V的样本序列作为音响数据F而利用。

第2取得部52取得表示适合于目标乐曲的伴奏模式P的伴奏数据C。具体而言，第2取得部52通过对音响信号V进行解析而生成伴奏数据C。根据音响信号V的一部分或全部而生成伴奏数据C。具体而言，利用音响信号V的一部分，执行由第1取得部51进行的音响数据F的生成和由第2取得部52进行的伴奏数据C的生成。例如，第2取得部52首先通过音响信号V的解析而对目标乐曲的音乐流派进行推定。对于音乐流派的推定，例如可以任意地采用日本特开2015－79110号等公知的技术。而且，第2取得部52对与不同的音乐流派对应的多个伴奏数据C之中与针对目标乐曲推定出的音乐流派对应的伴奏数据C进行确定。此外，第2取得部52也可以通过音响数据F的解析而对伴奏数据C进行确定。成为由第2取得部52取得的候补的多个伴奏数据C例如存储于存储装置32。

生成部53与包含第1取得部51取得的音响数据F和第2取得部52取得的伴奏数据C在内的输入数据X相对应地生成音色数据Z。具体而言，生成部53针对音响信号V表示的演奏音和由伴奏数据C指定的伴奏模式P的组合而生成表示合适的音色的音色数据Z。对于由生成部53进行的音色数据Z的生成，利用训练好的模型60。音响信号V表示的演奏音的音色和音色数据Z表示的音色之间的异同是任意的。

在与乐曲的演奏音相关的时间变化(音响数据F)和在该乐曲的演奏中大量使用的音色之间存在相关关系。另外，在适合于乐曲的伴奏模式P和在该乐曲的演奏中大量使用的音色之间也存在相关关系。训练好的模型60是对以上的倾向进行了学习的统计性推定模型。即，训练好的模型60是通过机器学习对多个已知的乐曲(以下，称为“参照乐曲”)各自的演奏音及伴奏模式P的组合和在该参照乐曲中大量使用的音色之间的关系进行了学习(训练)的统计性推定模型。具体而言，训练好的模型是对参照乐曲的输入数据X(音响数据F和伴奏数据C的组合)和该参照乐曲的音色数据Z之间的关系进行了学习(训练)的统计性推定模型。生成部53通过将包含音响数据F和伴奏数据C在内的输入数据X输入至训练好的模型60而从训练好的模型60输出音色数据Z。在参照乐曲中大量使用的音色还可称为适于参照乐曲的音色(适合于参照乐曲的演奏的音色)。

训练好的模型60例如由深度神经网络(DNN：Deep Neural Network)构成。例如，递归神经网络(RNN：Recurrent Neural Network)、或卷积神经网络(CNN：ConvolutionalNeural Network)等任意的形式的神经网络作为训练好的模型60而利用。可以由多种深度神经网络的组合构成训练好的模型60。另外，长短期存储(LSTM：Long Short-Term Memory)等的附加要素可以搭载于训练好的模型60。

训练好的模型60通过使控制装置31执行根据输入数据X生成音色数据Z的运算的程序和应用于该运算的多个变量的组合而实现。与训练好的模型60相关的多个变量例如包含加权值及偏差。实现训练好的模型60的程序及多个变量存储于存储装置32。对训练好的模型60进行规定的多个变量各自的数值是通过机器学习而事先设定的。

图5是例示出训练好的模型60的具体结构的框图。训练好的模型60包含第1模型61、第2模型62和第3模型63。输入数据X的音响数据F被输入至第1模型61，该输入数据X的伴奏数据C被输入至第2模型62。

第1模型61根据音响数据F而生成表示目标乐曲的演奏音的特征的第1数据y1。第1模型61是对音响数据F和第1数据y1之间的关系进行了学习(训练)的训练好的模型60。即，第1模型61是提取音响数据F的特征的模型。第1数据y1是表示对于由训练好的模型60根据输入数据X而生成适合于目标乐曲的音色数据Z有利的音响数据F的特征的数据。

例如，在第1模型61由卷积神经网络构成的方式中，将由音响数据F表示的频率特性的时间序列(即，在时间－频率区域分布的数值组)作为2维图像而输入至第1模型61。在第1模型61由递归神经网络构成的方式中，在音响数据F中与时间轴上的各时间点对应的部分被依次输入至第1模型61。另外，在第1模型61由卷积神经网络和递归神经网络的组合构成的方式中，在音响数据F中与时间轴上的各时间点对应的部分被依次输入至卷积神经网络，该卷积神经网络的每个时刻的输出数据被依次输入至后级的递归神经网络。

第2模型62根据伴奏数据C而生成表示伴奏模式P的特征的第2数据y2。第2模型62是对伴奏数据C和第2数据y2之间的关系进行了学习(训练)的训练好的模型60。即，第2模型62是将伴奏数据C表示的伴奏模式P的识别信息变换为第2数据y2的模型，例如由卷积神经网络构成。

第2数据y2例如是设定于多维的虚拟空间内的嵌入向量(embedding vector)。虚拟空间是与伴奏模式P的音响特征相对应地决定各伴奏模式P的位置(即，第2数据y2所指定的坐标)的连续空间。在多个伴奏模式P之间音响特征越相似，则各伴奏模式P的第2数据y2在虚拟空间内指定的坐标间的距离成为越小的数值。即，虚拟空间表现为表示多个伴奏模式P彼此之间的关系的空间。

包含第1模型61生成的第1数据y1和第2模型62生成的第2数据y2在内的中间数据Y被输入至第3模型63。第3模型63是对中间数据Y和音色数据Z之间的关系进行了学习的训练好的模型60，根据中间数据Y而生成音色数据Z。第3模型63例如由递归神经网络或卷积神经网络构成。

图6是例示出控制装置31生成音色数据Z的处理(以下，称为“解析处理”)Sa的具体流程的流程图。例如，将从电子乐器20发送来的音响信号V的接收作为契机而开始解析处理Sa。

如果开始解析处理Sa，则第1取得部51对目标乐曲的音响信号V进行解析而生成音响数据F(Sa1)。第2取得部52通过音响信号V的解析而生成伴奏数据C(Sa2)。第2取得部52将伴奏数据C从通信装置33发送至电子乐器20(Sa3)。此外，由第1取得部51进行的音响数据F的生成(Sa1)和由第2取得部52进行的伴奏数据C的生成(Sa2)及发送(Sa3)的顺序可以颠倒。

生成部53通过将包含音响数据F和伴奏数据C在内的输入数据X输入至训练好的模型60，从而从训练好的模型60输出音色数据Z(Sa4)。生成部53从通信装置33将音色数据Z发送至电子乐器20(Sa5)。此外，也可以将伴奏数据C与音色数据Z一起发送至电子乐器20。

图7是例示出接收到伴奏数据C及音色数据Z的电子乐器20的控制装置21执行的处理(以下，称为“演奏处理”)Sb的具体流程的流程图。以伴奏数据C及音色数据Z的接收为契机而开始演奏处理Sb。

如果开始演奏处理Sb，则控制装置21将音色数据Z表示的音色指示给音源装置27(Sb1)。因此，音源装置27处于能够与针对演奏装置24的利用者U的操作相对应地生成演奏信号A的状态，该演奏信号A表示由音色数据Z表示的音色的乐音。

利用者U能够通过对操作装置25进行操作而对伴奏模式P的播放进行指示。控制装置21直至从利用者U指示伴奏模式P的播放为止等待(Sb2：NO)。在指示了伴奏模式P的播放的情况下(Sb2：YES)，控制装置21将由从信息处理系统30接收到的伴奏数据C表示的伴奏模式P的播放指示给音源装置27(Sb3)。

控制装置21判定利用者U是否对演奏装置24进行了操作(Sb4)。在操作了演奏装置24的情况下(Sb4：YES)，控制装置21将与利用者U操作的键对应的音高的发音指示给音源装置27(Sb5)。音源装置27生成演奏信号A，该演奏信号A表示由音色数据Z表示的音色的演奏音。因此，利用者U的演奏音和伴奏模式P的伴奏音从放音装置28进行播放。在演奏装置24没有被操作的情况下(Sb4：NO)，不执行演奏音的播放(Sb5)。

控制装置21直至利用者U对演奏的结束进行指示为止，反复进行针对音源装置27的演奏音的播放的指示(Sb4、Sb5)(Sb6：NO)。在从利用者U指示了演奏的结束的情况下(Sb6：YES)，控制装置21使演奏处理Sb结束。

根据以上例示的第1实施方式，通过将包含表示目标乐曲的音响的音响数据F在内的输入数据X输入至训练好的模型60，生成表示适于目标乐曲的音色的音色数据Z。因此，例如能够针对新乐曲而确定出合适的音色。在第1实施方式中，特别是将包含表示目标乐曲的演奏音的音响数据F和表示与目标乐曲对应的伴奏模式P的伴奏数据C在内的输入数据X输入至训练好的模型60。因此，能够针对目标乐曲的音响和该目标乐曲的伴奏模式P的组合而确定出合适的音色。

另外，根据第1实施方式，有如下优点，即，即使在利用者U没有用于选择适于目标乐曲的伴奏模式P或音色的音乐知识的情况下，也能够选择适当的伴奏模式P及音色。另外，还有如下优点，即，能够减少由利用者U选择适当的伴奏模式P及音色所花费的工时。

图1的机器学习系统40生成以上例示的训练好的模型60。图8是例示出机器学习系统40的结构的框图。机器学习系统40具有控制装置41、存储装置42和通信装置43。此外，机器学习系统40除了作为单体装置而实现以外，还可以作为彼此分体地构成的多个装置而实现。

控制装置41由对机器学习系统40的各要素进行控制的单个或多个处理器构成。控制装置41由CPU、SPU、DSP、FPGA或ASIC等1种以上的处理器构成。通信装置43与信息处理系统30进行通信。

存储装置42是对控制装置41执行的程序和控制装置41使用的各种数据进行存储的单个或多个存储器。存储装置42例如由磁记录介质或半导体记录介质等公知的记录介质、或多种记录介质的组合构成。另外，可以将相对于机器学习系统40能够拆装的可移动型的记录介质、或经由通信网200而能够由控制装置41执行读入或读出的记录介质(例如云存储)作为存储装置42而利用。

图9是例示出机器学习系统40的功能结构的框图。控制装置41通过执行存储装置42所存储的程序，从而作为用于通过机器学习创建训练好的模型60的多个要素(训练数据取得部71及学习处理部72)起作用。

学习处理部72通过利用了多个训练数据T的有教师机器学习(后述的学习处理Sc)而创建训练好的模型60。训练数据取得部71取得多个训练数据T。具体而言，训练数据取得部71从存储装置42取得保存于存储装置42的多个训练数据T。

多个训练数据T各自由训练用的输入数据Xt和训练用的音色数据Zt的组合构成。输入数据Xt包含已知的参照乐曲的音响数据Ft和适合于该参照乐曲的伴奏模式P的伴奏数据Ct。音响数据Ft是根据收录了参照乐曲的演奏的结果而生成的。伴奏数据Ct表示的伴奏模式P例如是训练数据T的制作者考虑参照乐曲的音乐特征(例如，曲调或节拍等)而选定的。

各训练数据T的音色数据Zt是表示适合于与该训练数据T对应的参照乐曲的音色的数据。即，各训练数据T的音色数据Zt相当于针对该训练数据T的输入数据Xt的正确值(标签)。音色数据Zt例如是训练数据T的制作者考虑参照乐曲及伴奏模式P的组合的音乐特征而选定的。

图10是例示出控制装置41创建训练好的模型60的学习处理Sc的具体流程的流程图。学习处理Sc还表现为通过机器学习而生成训练好的模型60的方法(训练好的模型生成方法)。

如果开始学习处理Sc，则训练数据取得部71取得存储装置42所存储的多个训练数据T的任意者(以下，称为“选择训练数据T”)(Sc1)。学习处理部72如图9所例示的那样，将选择训练数据T的输入数据Xt输入至初始的或临时的模型(以下，称为“临时模型65”)(Sc2)，取得针对该输入由临时模型65输出的音色数据Z(Sc3)。

学习处理部72对表示临时模型65生成的音色数据Z和选择训练数据T的音色数据Zt之间的误差的损失函数进行计算(Sc4)。学习处理部72以减小损失函数(理想情况是最小化)的方式对临时模型65的多个变量进行更新(Sc5)。对于与损失函数相对应的多个变量的更新，例如利用误差反向传播法。

学习处理部72判定规定的结束条件是否成立(Sc6)。结束条件例如是损失函数小于规定的阈值、或者损失函数的变化量小于规定的阈值。在结束条件不成立的情况下(Sc6：NO)，训练数据取得部71对未选择的训练数据T进行选择而作为新的选择训练数据T(Sc1)。即，直至结束条件的成立(Sc6：YES)为止，反复进行对训练好的模型60的多个变量进行更新的处理(Sc2－Sc5)。在结束条件成立的情况下(Sc6：YES)，学习处理部72使对临时模型65进行规定的多个变量的更新(Sc2－Sc5)结束。结束条件成立的时间点的临时模型65被确定为训练好的模型60。即，训练好的模型60的多个变量被确定为学习处理Sc的结束的时间点的数值。

如根据以上说明所理解的那样，训练好的模型60基于多个训练数据T的输入数据Xt和音色数据Zt之间潜在的关系，针对未知的输入数据X而输出统计上合理的音色数据Z。即，训练好的模型60如前述那样，是通过机器学习对参照乐曲的演奏音及伴奏模式P和在该参照乐曲中大量使用的音色之间的关系进行了学习的模型。训练好的模型60还表现为对参照乐曲的输入数据Xt和该参照乐曲的音色数据Zt之间的关系进行了学习的模型。

学习处理部72将按以上的顺序创建的训练好的模型60从通信装置43发送至信息处理系统30(Sc7)。具体而言，学习处理部72将训练好的模型60的多个变量从通信装置43发送至信息处理系统30。信息处理系统30的控制装置31将从机器学习系统40接收到的训练好的模型60保存于存储装置32。具体而言，对训练好的模型60进行规定的多个变量存储于存储装置32。

B：第2实施方式

对第2实施方式进行说明。此外，在以下所例示的各方式中，对功能与第1实施方式相同的要素，沿用与第1实施方式的说明相同的标号，适当省略各自的详细说明。

图11是例示出第2实施方式的信息处理系统30的功能结构的框图。在第1实施方式中，例示出信息处理系统30从电子乐器20接收音响信号V的结构。第2实施方式的信息处理系统30的通信装置33从电子乐器20接收音响信号V或演奏数据D。

音响信号V与第1实施方式相同地，是表示目标乐曲的演奏音的波形的样本序列。另一方面，演奏数据D是表示针对演奏装置24的利用者U的演奏的内容的时间序列数据。具体而言，演奏数据D例如是依照MIDI(Musical Instrument Digital Interface)标准的形式的数据，针对构成乐曲的多个音符各自而指定音高和发音期间。

第2实施方式的控制装置31通过执行存储装置32所存储的程序，从而除了与第1实施方式相同的解析处理部50以外，还作为乐曲推定部56及音色确定部57起作用。

乐曲推定部56通过对通信装置33从电子乐器20接收到的音响信号V或演奏数据D进行解析，对利用者U演奏出的目标乐曲进行推定。具体而言，乐曲推定部56对符合目标乐曲的可能性高的多个乐曲(以下，称为“候补乐曲”)进行确定。对于由乐曲推定部56进行的候补乐曲的推定，利用存储装置32所存储的参照数据R。此外，在候补乐曲的确定中利用的音响信号V及演奏数据D综合表现为表示由利用者U进行的演奏的数据。

图12是参照数据R的示意图。如图12所例示的那样，参照数据R是针对已有的多个乐曲各自登记了乐曲信息Ra(Ra1、Ra2、…)、对比数据Rb(Rb1、Rb2、…)、伴奏数据C(C1、C2、…)和音色数据Z(Z1、Z2、…)的数据库。各乐曲的乐曲信息Ra包含该乐曲的识别信息及乐曲名等信息。各乐曲的对比数据Rb是表示该乐曲的内容的时间序列数据。具体而言，对比数据Rb与演奏数据D相同地，例如是依照MIDI标准的形式的数据，针对构成乐曲的多个音符各自而指定音高和发音期间。各乐曲的伴奏数据C是表示适合于该乐曲的伴奏模式P的数据。另外，各乐曲的音色数据Z是表示适合于该乐曲的音色的数据。

图13是例示出乐曲推定部56执行的处理(以下，称为“推定处理”)Sd的具体流程的流程图。例如，以从电子乐器20发送来的音响信号V或演奏数据D的接收为契机而开始推定处理Sd。

如果开始推定处理Sd，则乐曲推定部56判定通信装置33从电子乐器20接收到的是否是音响信号V(Sd1)。在通信装置33接收到音响信号V的情况下(Sd1：YES)，乐曲推定部56根据音响信号V而生成演奏数据D(Sd2)。演奏数据D是表示由利用者U进行的演奏的内容的时间序列数据。对于根据音响信号V而生成演奏数据D的处理，任意采用公知的记谱技术。在通信装置33接收到演奏数据D的情况下(Sd1：NO)，不执行演奏数据D的生成(Sd2)。如以上所述，乐曲推定部56取得表示由利用者U进行的演奏的演奏数据D。演奏数据D是根据通信装置33接收到的音响信号V而生产的数据、或者是通信装置33从电子乐器20接收到的数据。

乐曲推定部56通过对在参照数据R针对每个乐曲登记的对比数据Rb和演奏数据D彼此进行对比，从而对规定个的候补乐曲进行确定(Sd3)。具体而言，乐曲推定部56针对在参照数据R中登记的多个乐曲各自，对该乐曲的对比数据Rb和演奏数据D之间的相似度进行计算，选择多个乐曲之中按照相似度的降序而位于上位的规定个的乐曲作为候补乐曲。即，乐曲推定部56对对比数据Rb与演奏数据D相似的规定个的候补乐曲进行确定。因此，候补乐曲是与利用者U演奏出的乐曲对应的乐曲。乐曲推定部56针对在以上的处理中确定出的各候补乐曲而将登记于参照数据R的乐曲信息Ra从通信装置33发送至电子乐器20(Sd4)。即，多个候补乐曲的乐曲信息Ra被发送至电子乐器20。

电子乐器20的控制装置21使显示装置26对从信息处理系统30接收到的各候补乐曲的乐曲信息Ra进行显示。图14是显示于显示装置26的画面(以下，称为“选择画面”)G的示意图。在显示装置26，除了针对多个候补乐曲各自而显示乐曲信息Ra(具体而言，乐曲名)以外，还显示表示是在参照数据R中没有登记的乐曲的“未登记曲”的文字列。未登记曲例如是利用者U独自制作的乐曲。利用者U通过对操作装置25进行操作而从选择画面G选择目标乐曲。控制装置21将表示利用者U所选择的目标乐曲的选择指示E从通信装置23发送至信息处理系统30。

例如，在目标乐曲是已有的候补乐曲的情况下，利用者U从选择画面G选择该候补乐曲。在利用者U选择了候补乐曲的情况下，控制装置21将表示该候补乐曲的选择指示E从通信装置33发送至信息处理系统30。包含例如候补乐曲的乐曲信息Ra在内的选择指示E被发送至信息处理系统30。另一方面，在目标乐曲是候补乐曲以外的乐曲(例如自作曲)的情况下，利用者U从选择画面G选择未登记曲。在利用者U选择了未登记曲的情况下，控制装置21将表示目标乐曲是未登记曲的选择指示E从通信装置33发送至信息处理系统30。

针对已有的候补乐曲而在参照数据R登记有伴奏数据C及音色数据Z，另一方面，针对利用者U的自作曲等未登记曲而在参照数据R没有登记伴奏数据C及音色数据Z。图11的音色确定部57在目标乐曲是已登记于参照数据R的候补乐曲的情况下，根据参照数据R而确定该候补乐曲的伴奏数据C及音色数据Z。具体而言，音色确定部57从存储装置32取得针对目标乐曲所登记的伴奏数据C及音色数据Z。另一方面，第2实施方式的解析处理部50在目标乐曲是未登记曲的情况下，通过音响信号V的解析而生成目标乐曲的伴奏数据C及音色数据Z。解析处理部50的结构及动作与第1实施方式相同。

图15是例示出第2实施方式的信息处理系统30的控制装置31执行的处理(以下，称为“控制处理”)Se的具体流程的流程图。例如，以音响信号V或演奏数据D的接收为契机而开始控制处理Se。

如果开始控制处理Se，则乐曲推定部56执行图13所例示的推定处理Sd。即，乐曲推定部56将对比数据Rb与演奏数据D相似的规定个的候补乐曲通知给电子乐器20。如果执行推定处理Sd，则控制装置31直至通信装置33从电子乐器20接收到选择指示E为止等待(Se1：NO)。

在通信装置33接收到选择指示E的情况下(Se1：YES)，控制装置31判定选择指示E是否表示候补乐曲(Se2)。以上的判定是对目标乐曲是否登记于参照数据R进行判定的处理。即，在选择指示E表示候补乐曲的情况下(Se2：YES)，表示目标乐曲登记于参照数据R，在选择指示E表示未登记曲的情况下(Se2：NO)，表示目标乐曲没有登记于参照数据R。在目标乐曲没有登记于参照数据R的情况下，伴奏数据C及音色数据Z不是根据参照数据R确定的。

在选择指示E表示候补乐曲的情况下(Se2：YES)，音色确定部57根据参照数据R而确定该候补乐曲的伴奏数据C及音色数据Z(Se3)。音色确定部57将候补乐曲的伴奏数据C及音色数据Z从通信装置33发送至电子乐器20(Se4)。电子乐器20利用从信息处理系统30接收到的伴奏数据C及音色数据Z而执行图7的演奏处理Sb。

另一方面，在选择指示E表示未登记曲的情况下(Se2：NO)，解析处理部50执行利用了训练好的模型60的图6的解析处理Sa。即，解析处理部50通过从电子乐器20接收到的音响信号V的解析而生成伴奏数据C和音色数据Z，将伴奏数据C及音色数据Z从通信装置33发送至电子乐器20(Sa3，Sa5)。电子乐器20利用从信息处理系统30接收到的伴奏数据C及音色数据Z而执行图7的演奏处理Sb。

如以上说明的那样，在第2实施方式中，在目标乐曲的音色(音色数据Z)登记于参照数据R的情况下，音色确定部57根据参照数据R而确定音色数据Z，在目标乐曲的音色没有登记于参照数据R的情况下，解析处理部50利用训练好的模型60而生成音色数据Z。即，在针对目标乐曲而在参照数据R登记有适当的音色的情况下，生成表示已登记的音色的音色数据Z。因此，能够一边针对已登记的乐曲而确定适当的音色，一边还针对未登记的乐曲(例如，利用者U制作出的新乐曲)而确定适当的音色。另外，在针对已登记的目标乐曲而根据参照数据R确定出伴奏数据C及音色数据Z之后，不需要解析处理Sa。因此，还有减轻解析处理Sa所需的负荷的优点。

C：第3实施方式

图16是例示出第3实施方式涉及的电子乐器20的功能结构的框图。在第2实施方式中，例示出信息处理系统30具有解析处理部50、乐曲推定部56和音色确定部57的结构。在第3实施方式中，电子乐器20具有解析处理部50、乐曲推定部56和音色确定部57。以上的要素通过由控制装置21执行存储装置22所存储的程序而实现。

图16所例示的各要素(乐曲推定部56、音色确定部57及解析处理部50)的具体结构及动作与第1实施方式及第2实施方式相同。例如，乐曲推定部56通过对从信号供给装置10供给的音响信号V、或与针对演奏装置24的演奏相对应的演奏数据D进行解析，对符合利用者U所演奏的目标乐曲的可能性高的多个候补乐曲进行确定。乐曲推定部56使显示装置26对包含各候补乐曲的乐曲信息Ra在内的选择画面G进行显示，接受针对选择画面G的来自利用者U的操作。

音色确定部57在目标乐曲是已登记于参照数据R的候补乐曲的情况下，根据参照数据R而确定该候补乐曲的伴奏数据C及音色数据Z。应用于由乐曲推定部56进行的候补乐曲的推定和由音色确定部57进行的处理的参照数据R存储于存储装置22。

在目标乐曲是未登记曲的情况下，解析处理部50通过音响信号V的解析而生成目标乐曲的伴奏数据C及音色数据Z。应用于由解析处理部50进行的解析处理Sa的训练好的模型60存储于存储装置22。即，机器学习系统40生成的训练好的模型60传输至电子乐器20。训练好的模型60的结构与第1实施方式相同。

音源装置27与第1实施方式相同地生成演奏信号A，该演奏信号A表示由伴奏数据C表示的伴奏模式P的伴奏音和由音色数据Z表示的音色的演奏音的混合音。演奏信号A被供给至放音装置28。因此，音源装置27及放音装置28作为与利用者U的演奏相对应地对音色数据Z表示的音色的音响进行播放，对伴奏数据C表示的伴奏模式P的伴奏音进行播放的播放部29起作用。

如根据以上说明所理解的那样，在第3实施方式中，也实现与第1实施方式及第2实施方式相同的效果。此外，在图16中，例示出具有解析处理部50、乐曲推定部56和音色确定部57的电子乐器20，但乐曲推定部56及音色确定部57也可以从电子乐器20省略。

D：第4实施方式

图17是例示出第4实施方式涉及的演奏系统100的结构的框图。演奏系统100具有电子乐器20和信息装置80。信息装置80例如是智能手机或平板终端等装置。信息装置80例如以有线或无线的方式与电子乐器20连接。

信息装置80通过具有控制装置81和存储装置82的计算机系统而实现。控制装置81由对信息装置80的各要素进行控制的单个或多个处理器构成。例如，控制装置81由CPU、SPU、DSP、FPGA、或ASIC等1种以上的处理器构成。存储装置82是对控制装置81执行的程序和控制装置81使用的各种数据进行存储的单个或多个存储器。存储装置82例如由磁记录介质或半导体记录介质等公知的记录介质、或多种记录介质的组合构成。此外，可以将相对于信息装置80能够拆装的可移动型的记录介质、或经由例如通信网200而能够由控制装置81执行读入或读出的记录介质(例如云存储)作为存储装置82而利用。

控制装置81通过执行存储装置82所存储的程序而实现解析处理部50、乐曲推定部56和音色确定部57。解析处理部50、乐曲推定部56和音色确定部57各自的结构及动作与第1实施方式至第3实施方式的例示相同。乐曲推定部56及音色确定部57使用的参照数据R和解析处理部50使用的训练好的模型60被存储于存储装置82。

解析处理部50或乐曲推定部56确定出的伴奏数据C及音色数据Z被发送至电子乐器20。电子乐器20的音源装置27与第1实施方式相同地生成演奏信号A，该演奏信号A表示由伴奏数据C表示的伴奏模式P的伴奏音和由音色数据Z表示的音色的演奏音的混合音。演奏信号A被供给至放音装置28。

如根据以上说明所理解的那样，在第4实施方式中，也实现与第1实施方式至第3实施方式相同的效果。此外，在图17中，例示出具有解析处理部50、乐曲推定部56和音色确定部57的信息装置80，但乐曲推定部56及音色确定部57也可以从信息装置80省略。

在第4实施方式中，例如，由机器学习系统40构建的训练好的模型60传输至信息装置80，该训练好的模型60存储于存储装置82。在以上的结构中，对信息装置80的利用者的合法性(是事先登记的正规的利用者)进行认证的认证处理部可以搭载于机器学习系统40。在利用者的合法性通过认证处理部得到认证的情况下，训练好的模型60自动地(即，不需要来自利用者的指示地)传输至信息装置80。

E：第5实施方式

图18是例示出第5实施方式涉及的演奏系统100的结构的框图。演奏系统100与第4实施方式相同地具有电子乐器20和信息装置80。电子乐器20及信息装置80的结构与第4实施方式相同。

机器学习系统40对与电子乐器20的不同的机型对应的多个训练好的模型60进行存储。电子乐器20(具体而言，音源装置27)能够发音的音色的种类及总数针对电子乐器20的每个机型而不同。与各机型对应的训练好的模型60输出该机型的电子乐器20能够发音的音色的音色数据Z，不输出该电子乐器20无法发音的音色的音色数据Z。具体而言，在用于创建各机型的训练好的模型60的学习处理Sc中，利用包含该机型的电子乐器20能够发音的音色的音色数据Zt在内的训练数据T。即，多个训练数据T的数据集是针对电子乐器20的每个机型(即，能够发音的音色的每个组合)而单独准备的，通过每个机型的独立的学习处理Sc而创建训练好的模型60。

信息装置80选择性地经由通信网200而取得由机器学习系统40保存的多个训练好的模型60的任意者。具体而言，信息装置80从机器学习系统40取得多个训练好的模型60之中与连接于该信息装置80的电子乐器20的机型对应的1个训练好的模型60。从机器学习系统40取得的训练好的模型60存储于存储装置82，利用于由解析处理部50进行的解析处理Sa。解析处理Sa的具体流程与前述的各方式相同。

如根据以上说明所理解的那样，在第5实施方式中，也实现与第1实施方式至第3实施方式相同的效果。另外，在第5实施方式中，针对电子乐器20的每个机型而创建了训练好的模型60，因此与无论电子乐器20的机型如何都利用共通的训练好的模型60的结构进行对比，还有能够针对各机型的电子乐器20而高精度地推定适当的音色数据Z的优点。此外，第1实施方式或第2实施方式的信息处理系统30、第3实施方式的电子乐器20和第4实施方式或第5实施方式的信息装置80是“信息处理系统”的一个例子。

F：变形例

以下，例示对以上例示出的各方式附加的具体的变形方式。可以将从以下的例示中任意地选择出的多个方式在不相互矛盾的范围适当地合并。

(1)可以针对时间轴上的规定长度的每个期间(以下，称为“单位期间”)而由解析处理部50生成音色数据Z。具体而言，第1取得部51针对音响信号V的每个单位期间而生成音响数据F。生成部53在多个单位期间的各期间中，根据包含该单位期间的音响数据F和由第2取得部52确定出的伴奏数据C在内的输入数据X而生成音色数据Z。

可以根据与不同的单位期间对应的多个音色数据Z而由控制装置21或控制装置31对设定于音源装置27的1种音色进行确定。例如，可以在多个音色数据Z中选择最频的音色。另外，可以按照由生成部53确定出的次数的降序将规定个的音色提示给利用者U，由利用者U选择规定个的音色之中对音源装置27设定的1种音色。

(2)第1实施方式的第1取得部51生成了音响数据F，但也可以由第1取得部51从电子乐器20接收在电子乐器20中根据音响信号V而生成的音响数据F。即，由第1取得部51进行的音响数据F的取得包含音响数据F的生成和音响数据F的接收这两者。另外，第1实施方式的第2取得部52生成了伴奏数据C，但也可以由第2取得部52从电子乐器20接收在电子乐器20中根据音响信号V而生成的伴奏数据C。即，由第2取得部52进行的伴奏数据C的取得包含伴奏数据C的生成和伴奏数据C的接收这两者。此外，第1取得部51或第2取得部52可以搭载于电子乐器20。

(3)在前述的各方式中，例示出音色数据Z表示1种音色的方式，但音色数据Z的形式不限定于以上的例示。例如，音色数据Z可以是针对多种音色各自而表示概率分布的数据。具体而言，音色数据Z针对每个音色而指定例如以正态分布表现的概率分布的平均及方差。控制装置21或控制装置31根据针对音色数据Z不同的音色而指定的多个概率分布，对最大似然的1种音色进行确定。表示每个音色的概率分布的音色数据Z也属于表示音色的数据。

(4)在前述的各方式中，生成部53根据音响数据F和伴奏数据C而生成了音色数据Z，但生成部53也可以仅根据音响数据F而生成音色数据Z。即，伴奏数据C可以省略。如根据以上说明所理解的那样，训练好的模型60总括地表现为对参照乐曲的音响(音响数据Ft)和该参照乐曲所使用的音色(音色数据Zt)之间的关系进行了学习的模型。

(5)在前述的各方式中，将深度神经网络作为训练好的模型60进行了例示，但训练好的模型60不限定于深度神经网络。例如，可以将HMM(Hidden Markov Model)或SVM(Support Vector Machine)等统计性推定模型作为训练好的模型60而利用。具体内容如以下所示。

(5－1)HMM

HMM是将多个潜在状态彼此连结的统计性推定模型。HMM的多个潜在状态各自表示不同的多种音色的任意者(即，音色数据Z)。在各潜在状态下，生成表示与由该潜在状态表示的音色相关的特征的音响数据F。音响数据F与前述的各方式相同地，例如是表示MFCC、MSLS或恒Q变换等频率特性的时间序列的数据。另外，构成HMM的多个潜在状态分别对应于将音响信号V在时间轴上划分出的多个期间(以下，称为“处理期间”)。各处理期间例如是以规定个(单个或多个)的小节为单位而对目标乐曲进行划分的期间。

第1取得部51针对音响信号V的各处理期间而生成音响数据F。生成部53将针对音响信号V的不同的处理期间而生成的多个音响数据F的时间序列输入至由HMM构成的训练好的模型60。生成部53基于观测到多个音响数据F的时间序列这一条件，利用HMM对最大似然的音色数据Z的时间序列进行推定。即，针对音响信号V的每个处理期间而从HMM输出音色数据Z。对于音色数据Z的时间序列的推定，利用例如维特比算法等动态规划算法。

HMM通过利用包含音色数据Z在内的多个训练数据T的有教师机器学习(学习处理Sc)而创建。在学习处理Sc中，以针对多个音响数据F的时间序列而输出最大似然的音色数据Z的时间序列的方式，反复更新各潜在状态的转变概率及输出概率。

(5－2)SVM

针对从多种音色选择2种音色的全部组合的各组合而准备SVM。针对与2种音色的组合对应的SVM，通过机器学习(学习处理Sc)而创建多维空间内的超平面。超平面是将与2种音色之中一者的音色对应的输入数据X分布的空间和与另一者的音色对应的输入数据X分布的空间进行分离的边界面。训练好的模型60由与不同的音色的组合对应的多个SVM构成(multi-class SVM)。

生成部53将包含音响数据F和伴奏数据C的输入数据X输入至多个SVM各自。与各组合对应的SVM与在由超平面分离出的2个空间的任意者是否存在输入数据X相对应地，选择该组合涉及的2种音色的任意者。在与不同的组合对应的多个SVM各自中同样地执行音色的选择。生成部53生成表示多种音色之中由多个SVM选择的次数最大的音色的音色数据Z。

如根据以上的例示所理解的那样，与训练好的模型60的种类无关地，生成部53作为通过将输入数据X输入至训练好的模型60而从该训练好的模型60输出表示适于目标乐曲的音色的音色数据Z的要素起作用。

(6)在前述的各方式中，将利用了多个训练数据T的有教师机器学习例示为学习处理Sc，但也可以通过不需要训练数据T的无教师机器学习、或使报酬最大化的强化学习而创建训练好的模型60。例如，学习处理部72在针对各训练数据T的输入数据Xt而由临时模型65输出的音色数据Zt和该训练数据T的音色数据Z一致的情况下，将报酬函数设定为“+1”，在两者不一致的情况下，将报酬函数设定为“－1”。学习处理部72以使得针对多个训练数据T而设定的报酬函数的总和最大化的方式，反复更新临时模型65的多个变量，由此创建训练好的模型60。另外，作为无教师机器学习，例示出利用了公知的聚类的机器学习。

(7)在前述的各方式中，机器学习系统40创建了训练好的模型60，但机器学习系统40的功能(训练数据取得部71及学习处理部72)也可以搭载于信息处理系统30。另外，机器学习系统40的功能(训练数据取得部71及学习处理部72)也可以搭载于第3实施方式的电子乐器20、或第4实施方式的信息装置80。

(8)在前述的各方式中，利用对参照乐曲的输入数据X和该参照乐曲的音色数据Z之间的关系进行了学习的训练好的模型60，根据与音响信号V相对应的输入数据X而生成了音色数据Z，但用于根据输入数据X而生成音色数据Z的结构及方法不限定于以上的例示。例如，在不同的多个输入数据X各自关联有音色数据Z的参照表可以利用于由生成部53进行的音色数据Z的生成。参照表是登记了输入数据X和音色数据Z的对应关系的数据表，例如存储于存储装置32。解析处理部50的生成部53从参照表对与根据音响信号V生成的输入数据X一致或相似的输入数据X进行检索，根据参照表而取得多个音色数据Z之中与该输入数据X相关联的音色数据Z。通过以上的结构，也与前述的各方式相同地，能够对适于例如新乐曲的音色进行确定。

(9)前述的各方式所例示的功能(解析处理部50、乐曲推定部56、音色确定部57)如前述那样，通过构成控制装置(21、31、71)的单个或多个处理器和存储装置(22、32、72)所存储的程序的协同动作而实现。以上的程序可以以储存于计算机可读取的记录介质的方式提供而安装于计算机。记录介质例如是非临时性(non-transitory)的记录介质，优选是CD-ROM等光学式记录介质(光盘)，还包含半导体记录介质或磁记录介质等公知的任意形式的记录介质。此外，作为非临时性的记录介质，包含除了临时性的传输信号(transitory,propagating signal)以外的任意的记录介质，也可以不将易失性的记录介质除外。另外，在传送装置经由通信网而传送程序的结构中，在该传送装置，对程序进行存储的存储装置相当于前述的非临时性的记录介质。

G：附录

根据以上例示出的方式，例如掌握以下的结构。

一个方式(方式1)涉及的信息处理系统具有：第1取得部，其取得表示目标乐曲的音响的音响数据；以及生成部，其通过向对参照乐曲的音响和该参照乐曲所使用的音色之间的关系进行了学习的训练好的模型输入包含所述取得的音响数据在内的输入数据，从而从所述训练好的模型输出表示适于所述目标乐曲的音色的音色数据。根据以上的方式，通过将包含表示目标乐曲的音响的音响数据在内的输入数据输入至训练好的模型，生成表示适于该目标乐曲的音色的音色数据。因此，例如，能够确定出适于新乐曲的音色。

音响数据表示的音响例如是通过乐曲的演奏而从乐器等发音源发音的乐音。对于“演奏”，除了各种乐器的操作以外，还包含歌唱者的歌唱。另外，“音色数据”是表示适于目标乐曲的音色的任意的形式的数据。例如，作为音色数据而设想到用于识别1种音色的识别信息。但是，音色数据不限定于明确地对1种音色进行指定的数据。例如，针对多种音色各自示出概率(似然度)的数据、或针对多个音色各自示出概率分布(例如平均及方差)的数据也包含于“音色数据”的概念。

“适于”目标乐曲的音色代表相对于目标乐曲在音乐上对应(相符)的音色。例如，与目标乐曲的曲调对应的音色、与目标乐曲的音乐表情相称的音色等与目标乐曲相适应的音色被解释为“适于目标乐曲的音色”。

“训练好的模型”例如是通过利用多个训练数据的有教师机器学习而创建的统计性推定模型。多个训练数据各自例如是训练用的输入数据和训练用的音色数据(正确值)的组合。

方式1的具体例(方式2)涉及的信息处理系统具有第2取得部，该第2取得部取得表示与所述目标乐曲对应的伴奏模式的伴奏数据，所述训练好的模型是对所述参照乐曲的音响及该参照乐曲的伴奏模式和该参照乐曲所使用的音色之间的关系进行了学习的模型，所述输入数据包含所述音响数据和所述伴奏数据。在以上的方式中，包含表示目标乐曲的音响的音响数据和表示与目标乐曲对应的伴奏模式的伴奏数据在内的输入数据被输入至训练好的模型。因此，能够对适于目标乐曲的音响和该目标乐曲的伴奏模式的组合的音色进行确定。

“伴奏模式”是表示乐曲的伴奏音的音响信号。例如，例示出用于对多种伴奏模式的任意者进行识别的识别信息作为“伴奏数据”。伴奏数据例如对通过对目标乐曲的音响进行解析而自动地推定出的伴奏模式、或利用者指定的伴奏模式进行指定。

在方式2的具体例(方式3)中，所述训练好的模型包含：第1模型，其根据所述音响数据而生成表示与所述目标乐曲的音响相关的特征的第1数据；第2模型，其根据所述伴奏数据而生成表示所述伴奏模式的特征的第2数据；以及第3模型，其根据包含所述第1数据和所述第2数据在内的中间数据而生成所述音色数据。

方式1至3的具体例(方式4)涉及的信息处理系统还具有音色确定部，在针对多个乐曲各自登记了适于该乐曲的音色的参照数据登记有适于所述目标乐曲的音色的情况下，该音色确定部根据所述参照数据而对表示该音色的音色数据进行确定，所述生成部在针对所述目标乐曲而在所述参照数据没有登记音色的情况下，利用所述训练好的模型而生成所述音色数据。在以上的方式中，在针对目标乐曲而在参照数据登记有适当的音色的情况下，生成表示已登记的音色的音色数据。因此，能够一边针对已登记的乐曲生成表示适当的音色的音色数据，一边还针对未登记的乐曲(例如，利用者制作的新乐曲)确定出适当的音色。

方式4的具体例(方式5)涉及的信息处理系统还具有乐曲推定部，该乐曲推定部根据登记于所述参照数据的所述多个乐曲而对与利用者演奏的乐曲对应的多个候补乐曲进行推定，所述音色确定部在所述利用者选择了所述多个候补乐曲的任意者作为所述目标乐曲的情况下，根据所述参照数据而对与该目标乐曲对应的所述音色数据进行确定。在以上的方式中，在利用者选择了多个候补乐曲的任意者作为目标乐曲的情况下，根据参照数据而确定与该目标乐曲对应的音色数据。因此，能够针对利用者演奏出的乐曲而确定出适当的音色数据。

在方式5的具体例(方式6)中，所述生成部在所述利用者选择了所述多个候补乐曲以外的乐曲作为所述目标乐曲的情况下，利用所述训练好的模型而生成所述音色数据。根据以上的方式，能够针对多个候补乐曲以外的未登记曲而生成适当的音色数据。

在方式5或6的具体例(方式7)中，在所述参照数据针对所述多个乐曲各自而登记表示该乐曲的内容的对比数据，所述乐曲推定部通过对针对所述多个乐曲各自登记的所述对比数据和表示所述利用者的演奏的数据进行对比，从而对所述多个候补乐曲进行推定。根据以上的方式，能够与音色数据一起利用登记于参照数据的对比数据而推定候补乐曲。

在方式1至7中任一项所述的具体例(方式8)中，所述音响数据是表示与所述目标乐曲的音响相关的频率特性的时间序列的数据。作为与目标乐曲的音响相关的频率特性，例如除了振幅谱或功率谱等强度频谱以外，还例示出MFCC(Mel-Frequency CepstrumCoefficient)，MSLS(Mel-Scale Log Spectrum)、或恒Q变换(CQT：Constant-QTransform)等。

本发明的一个方式(方式9)涉及的电子乐器具有：演奏接受部，其接受利用者进行的演奏；第1取得部，其取得表示目标乐曲的音响的音响数据；生成部，其通过向对参照乐曲的音响和该参照乐曲所使用的音色之间的关系进行了学习的训练好的模型输入包含所述取得的音响数据在内的输入数据，从而从所述训练好的模型输出表示适于所述目标乐曲的音色的音色数据；以及播放部，其与所述演奏接受部接受的演奏相对应地，对与所述音色数据相对应的音色的音响进行播放。“演奏接受部接受的演奏”例如是针对多个键的演奏。

在方式9的具体例(方式10)中，所述演奏接受部包含与不同的音高对应的多个键排列的键盘，所述播放部对具有所述多个键之中与所述利用者演奏的键对应的音高和与所述音色数据相对应的音色的音响进行播放。即，电子乐器是具有键盘的键盘乐器。根据以上的方式，能够对具有利用者通过键盘演奏出的音高和与音色数据相对应的音色的音响进行播放。

本发明的一个方式(方式11)涉及的信息处理方法取得表示目标乐曲的音响的音响数据，通过向对参照乐曲的音响和该参照乐曲所使用的音色之间的关系进行了学习的训练好的模型输入包含所述取得的音响数据在内的输入数据，从而从所述训练好的模型输出表示适于所述目标乐曲的音色的音色数据。针对信息处理系统可以采用的前述的各方式(方式2至8)针对方式11涉及的信息处理方法也同样地采用。

标号的说明

100…演奏系统，10…信号供给装置，20…电子乐器，21、31、41、81…控制装置，22、32、42、82…存储装置、23、33、43…通信装置，24…演奏装置，25…操作装置，26…显示装置，27…音源装置，28…放音装置，29…播放部，30…信息处理系统，40…机器学习系统，50…解析处理部，51…第1取得部，52…第2取得部，53…生成部，56…乐曲推定部，57…音色确定部，60…训练好的模型，61…第1模型，62…第2模型，63…第3模型，65…临时模型，71…训练数据取得部，72…学习处理部，80…信息装置。

Claims

1.一种信息处理系统，其具有：

第1取得部，其取得表示目标乐曲的音响的音响数据；以及

生成部，其通过向对参照乐曲的音响和该参照乐曲所使用的音色之间的关系进行了学习的训练好的模型输入包含所述取得的音响数据在内的输入数据，从而从所述训练好的模型输出表示适于所述目标乐曲的音色的音色数据。

2.根据权利要求1所述的信息处理系统，其中，

还具有第2取得部，该第2取得部取得表示与所述目标乐曲对应的伴奏模式的伴奏数据，

所述训练好的模型是对所述参照乐曲的音响及该参照乐曲的伴奏模式和该参照乐曲所使用的音色之间的关系进行了学习的模型，

所述输入数据包含所述取得的音响数据和所述取得的伴奏数据。

3.根据权利要求2所述的信息处理系统，其中，

所述训练好的模型包含：

第1模型，其根据所述音响数据而生成表示与所述目标乐曲的音响相关的特征的第1数据；

第2模型，其根据所述伴奏数据而生成表示所述伴奏模式的特征的第2数据；以及

第3模型，其根据包含所述第1数据和所述第2数据在内的中间数据而生成所述音色数据。

4.根据权利要求1至3中任一项所述的信息处理系统，其中，

还具有音色确定部，在针对多个乐曲各自登记了适于该乐曲的音色的参照数据登记有适于所述目标乐曲的音色的情况下，该音色确定部根据所述参照数据而对表示该音色的音色数据进行确定，

所述生成部在针对所述目标乐曲而在所述参照数据没有登记音色的情况下，利用所述训练好的模型而生成所述音色数据。

5.根据权利要求4所述的信息处理系统，其中，

还具有乐曲推定部，该乐曲推定部根据登记于所述参照数据的所述多个乐曲而对与利用者演奏出的乐曲对应的多个候补乐曲进行推定，

所述音色确定部在所述利用者选择了所述多个候补乐曲的任意者作为所述目标乐曲的情况下，根据所述参照数据而对与该目标乐曲对应的所述音色数据进行确定。

6.根据权利要求5所述的信息处理系统，其中，

所述生成部在所述利用者选择了所述多个候补乐曲以外的乐曲作为所述目标乐曲的情况下，利用所述训练好的模型而生成所述音色数据。

7.根据权利要求5或6所述的信息处理系统，其中，

在所述参照数据针对所述多个乐曲各自而登记表示该乐曲的内容的对比数据，

所述乐曲推定部通过对针对所述多个乐曲各自登记的所述对比数据和表示所述利用者的演奏的数据进行对比，从而对所述多个候补乐曲进行推定。

8.根据权利要求1至7中任一项所述的信息处理系统，其中，

所述音响数据是表示与所述目标乐曲的音响相关的频率特性的时间序列的数据。

9.一种电子乐器，其具有：

演奏接受部，其接受利用者进行的演奏；

第1取得部，其取得表示目标乐曲的音响的音响数据；

生成部，其通过向对参照乐曲的音响和该参照乐曲所使用的音色之间的关系进行了学习的训练好的模型输入包含所述取得的音响数据在内的输入数据，从而从所述训练好的模型输出表示适于所述目标乐曲的音色的音色数据；以及

播放部，其与所述演奏接受部接受的演奏相对应地，对与所述音色数据相对应的音色的音响进行播放。

10.根据权利要求9所述的电子乐器，其中，

所述演奏接受部包含与不同的音高对应的多个键排列的键盘，

所述播放部对具有所述多个键之中与所述利用者演奏出的键对应的音高和与所述音色数据相对应的音色的音响进行播放。

11.一种信息处理方法，其通过计算机系统而实现如下动作：

取得表示目标乐曲的音响的音响数据，

通过向对参照乐曲的音响和该参照乐曲所使用的音色之间的关系进行了学习的训练好的模型输入包含所述取得的音响数据在内的输入数据，从而从所述训练好的模型输出表示适于所述目标乐曲的音色的音色数据。

12.根据权利要求11所述的信息处理方法，其中，

进一步地，取得表示与所述目标乐曲对应的伴奏模式的伴奏数据，

所述输入数据包含所述音响数据和所述伴奏数据。

13.根据权利要求12所述的信息处理方法，其中，

所述训练好的模型包含：

14.根据权利要求11至13中任一项所述的信息处理方法，其中，

进一步地，

在针对多个乐曲各自登记了适于该乐曲的音色的参照数据登记有适于所述目标乐曲的音色的情况下，根据所述参照数据而对表示该音色的音色数据进行确定，

在针对所述目标乐曲而在所述参照数据没有登记音色的情况下，利用所述训练好的模型而生成所述音色数据。

15.根据权利要求14所述的信息处理方法，其中，

进一步地，

根据登记于所述参照数据的所述多个乐曲，对与利用者演奏的乐曲对应的多个候补乐曲进行推定，

在所述音色数据的确定中，在所述利用者选择了所述多个候补乐曲的任意者作为所述目标乐曲的情况下，根据所述参照数据而对与该目标乐曲对应的所述音色数据进行确定。

16.根据权利要求15所述的信息处理方法，其中，

在所述利用者选择了所述多个候补乐曲以外的乐曲作为所述目标乐曲的情况下，利用所述训练好的模型而生成所述音色数据。

17.根据权利要求15或16所述的信息处理方法，其中，

在所述多个候补乐曲的推定中，通过对针对所述多个乐曲各自登记的所述对比数据和表示所述利用者的演奏的数据进行对比，从而对所述多个候补乐曲进行推定。

18.根据权利要求11至17中任一项所述的信息处理方法，其中，

19.一种程序，其使计算机系统作为如下功能部起作用：

第1取得部，其取得表示目标乐曲的音响的音响数据；以及