CN115298734A

CN115298734A - 演奏代理的训练方法、自动演奏系统及程序

Info

Publication number: CN115298734A
Application number: CN202180020161.5A
Authority: CN
Inventors: 前泽阳
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2020-03-23
Filing date: 2021-03-09
Publication date: 2022-11-04
Also published as: JP7388542B2; WO2021193032A1; US20230014736A1; JPWO2021193032A1

Abstract

本发明的一个方面涉及的通过计算机实现的演奏代理的训练方法具有如下处理：对由演奏者进行的乐曲的第1演奏进行观测，通过演奏代理，生成与所观测的第1演奏并行地进行的第2演奏的演奏数据，以与演奏者的第1演奏并行地进行第2演奏的方式输出演奏数据，取得演奏者针对基于所输出的演奏数据进行的第2演奏的满足度，通过强化学习，将取得的满足度作为报酬而使用，以使得在将来所取得的满足度之和最大化的方式对演奏代理进行训练。

Description

演奏代理的训练方法、自动演奏系统及程序

技术领域

本发明涉及演奏代理(Agent)的训练方法、自动演奏系统及程序。

背景技术

近些年，与由演奏者进行的演奏相匹配地进行自动演奏的演奏代理的开发得到推进。例如，在专利文献1中提出有以与所推定的演奏者的演奏的进行同步的方式进行自动演奏的技术。在由专利文献1提出的技术中，提出了使用与特定的演奏者的暗号动作相对应地控制自动演奏的结构、及对暗号动作的识别使用通过机器学习而训练好的推定模型。

专利文献1：国际公开2018/070286号

发明内容

例如，演奏的乐器、演奏的能力等与演奏者的演奏相关的属性各种各样，因此适合于某个演奏者的演奏代理不一定适合于其他演奏者。如果针对每个演奏者而分别通过手动作业生成演奏代理，则演奏代理的生成成本变得庞大。

本发明在一个方面是鉴于以上情况而提出的，其目的在于，提供实现生成适合于演奏者的演奏代理的成本的降低的技术。

为了实现上述目的，本发明的一个方式涉及的由1台或多台计算机实现的演奏代理的训练方法具有如下处理：通过演奏代理，生成与所观测的所述第1演奏并行地进行的第2演奏的演奏数据，以与所述演奏者的所述第1演奏并行地进行所述第2演奏的方式输出所述演奏数据，取得所述演奏者针对基于所输出的所述演奏数据的所述第2演奏的满足度，通过强化学习，将取得的所述满足度作为报酬而使用，以使得在将来所取得的所述满足度之和最大化的方式对所述演奏代理进行训练。

发明的效果

根据本发明，能够实现生成适合于演奏者的演奏代理的成本的降低。

附图说明

图1示出实施方式涉及的自动演奏系统的结构的一个例子。

图2示出实施方式涉及的演奏控制装置的硬件结构的一个例子。

图3示出实施方式涉及的推定装置的硬件结构的一个例子。

图4示出实施方式涉及的自动演奏系统的软件结构的一个例子。

图5是表示实施方式的用于对满足度进行推定的推定模型的训练处理的一个例子的流程图。

图6是表示实施方式的演奏代理的训练处理的一个例子的流程图。

图7示出实施方式的演奏代理的强化学习的处理工序的一个例子。

具体实施方式

以下，参照附图详细地说明本发明的实施方式。以下所说明的各实施方式不过是能够实现本发明的结构的一个例子。以下的各实施方式能够根据应用本发明的装置的结构、各种条件而适当进行修正或变更。另外，以下的各实施方式所包含的要素的全部组合并非都是实现本发明所必须的，可以适当地省略要素的一部分。因此，本发明的范围不由以下的各实施方式所记载的结构限定。另外，只要彼此不矛盾，则还可以采用将实施方式中所记载的多个结构组合而得到的结构。

＜1.应用例＞

图1示出本实施方式涉及的自动演奏系统S的结构的一个例子。如图1所示，本实施方式的自动演奏系统S具有演奏控制装置100、演奏装置200及推定装置300。演奏控制装置100及推定装置300例如由个人计算机、服务器、平板终端、移动终端(例如，智能手机)等信息处理装置(计算机)实现。

演奏控制装置100是构成为自动生成对演奏装置200进行控制的演奏数据而供给至演奏装置200的计算机。演奏装置200可以适当构成为，按照第2演奏的演奏数据进行第2演奏。在一个例子中，演奏装置200是具有发音机构及驱动机构的键盘乐器等自动演奏乐器，是构成为基于从演奏控制装置100供给的演奏数据以无人方式进行演奏的计算机。演奏装置200的发音机构是与键盘的各键的位移联动地使弦(发音体)发音的击弦机构。演奏装置200的驱动机构基于上述的演奏数据对发音机构进行驱动，由此实现对象乐曲的演奏。推定装置300是构成为对演奏者和演奏代理160进行合演的演奏者的满足度(好感度)进行推定的计算机。本发明的“满足度”是指某个特定的演奏者的个人满足度(personalsatisfaction)。

本实施方式的演奏者在代表情况下使用与演奏控制装置100连接的电子乐器EM进行演奏。本实施方式的电子乐器EM例如可以是电子键盘乐器(电子钢琴等)、电子弦乐器(电吉他等)、电子管乐器(电吹管合成器等)等。但是，演奏者在演奏时使用的乐器可以不限于电子乐器EM。在另一个例子中，演奏者可以使用原声乐器进行演奏。在另一个例子中，本实施方式涉及的演奏者也可以是不使用乐器的乐曲的歌唱者。在该情况下，由演奏者进行的演奏也可以不使用乐器而进行。以下，将由演奏者进行的演奏称为“第1演奏”，将由演奏代理160进行的演奏称为“第2演奏”。

概略地，本实施方式涉及的自动演奏系统S对由演奏者进行的乐曲的第1演奏进行观测，通过后述的演奏代理160而生成与所观测的第1演奏并行地进行的第2演奏的演奏数据。接着，自动演奏系统S以与演奏者的第1演奏并行地进行第2演奏的方式输出演奏数据，取得演奏者针对由所输出的演奏数据实现的第2演奏的满足度。而且，自动演奏系统S将通过强化学习而取得的满足度用作报酬，以使在将来所取得的满足度之和最大化的方式，对演奏代理160进行训练。根据该自动演奏系统S，能够自动地生成适合于演奏者的演奏代理160。因此，能够实现生成适合于演奏者的演奏代理160的成本的降低。

＜2.硬件结构例＞

(演奏控制装置)

图2示出本实施方式涉及的演奏控制装置100的硬件结构的一个例子。如图2所示，演奏控制装置100是CPU 101、RAM 102、储存器103、输入部104、输出部105、收音部106、拍摄部107、收发部108及驱动器109由总线B1电气性地连接的计算机。

CPU 101由用于执行演奏控制装置100的各种运算的1个或多个处理器构成。CPU101是处理器资源(processor resources)的一个例子。处理器的种类可以根据实施方式而适当选择。RAM 102是易失性的存储介质，作为对在CPU 101使用的设定值等信息进行保存，并且供各种程序展开的工作存储器而进行动作。储存器103是非易失性的存储介质，对由CPU 101使用的各种程序及数据进行存储。RAM102及储存器103是对由处理器资源执行的程序进行保存的存储器资源(memory resource)的一个例子。

在本实施方式中，储存器103对程序81等各种信息进行存储。程序81是用于使演奏控制装置100执行如下信息处理(后述的图6、图7)的程序，即，与由演奏者进行的乐曲的第1演奏并行地进行第2演奏，对后述的演奏代理160进行训练。程序81包含该信息处理的一系列的命令。

输入部104由用于接受针对演奏控制装置100的操作的输入装置构成。输入部104例如可以由与演奏控制装置100连接的键盘、鼠标等1个或多个输入装置构成。

输出部105由用于输出各种信息的输出装置构成。输出部105例如可以由与演奏控制装置100连接的显示器、扬声器等1个或多个输出装置构成。信息的输出例如可以通过影像信号、声音信号等进行。

此外，输入部104及输出部105也可以由接受用户针对演奏控制装置100的操作并且输出各种信息的触摸面板显示器等输入输出装置一体地构成。

收音部106构成为将收音到的声音变换为电信号而供给至CPU101。收音部106例如也可以由传声器构成。收音部106可以内置于演奏控制装置100，也可以经由未图示的接口与演奏控制装置100连接。

拍摄部107构成为将拍摄到的影像变换为电信号而供给至CPU101。拍摄部107例如由数字照相机构成。拍摄部107可以内置于演奏控制装置100，也可以经由未图示的接口与演奏控制装置100连接。

收发部108构成为以无线或有线的方式与其他数据收发数据。在本实施方式中，演奏控制装置100经由收发部108与作为控制对象的演奏装置200、演奏者在演奏乐曲时使用的电子乐器EM、及推定装置300连接，对数据进行收发。收发部108可以包含多个模块(例如、Bluetooth(注册商标)模块、Wi-Fi(注册商标)模块、USB(Universal Serial Bus)端口、专用端口等)。

驱动器109是用于读入存储介质91所存储的程序等各种信息的驱动器装置。存储介质91是以计算机、其他装置、机器等能够读取所存储的程序等各种信息的方式，将该程序等信息通过电、磁、光学、机械或化学的作用而积蓄的介质。存储介质91例如可以是软盘、光盘(例如，压缩盘、数字多功能盘、蓝光光盘)、光磁盘、磁带、非易失性的存储卡(例如，闪存)等。驱动器109的种类可以与存储介质91的种类相对应地任意选择。上述程序81可以存储于存储介质91，演奏控制装置100也可以从该存储介质91读出上述程序81。

总线B1是将演奏控制装置100的上述硬件的结构要素相互且电气性地连接的信号传输路。此外，关于演奏控制装置100的具体的硬件结构，能够与实施方式相对应地适当进行结构要素的省略、置换及追加。例如，可以省略输入部104、输出部105、收音部106、拍摄部107、收发部108及驱动器109中的至少任一者。

(推定装置)

图3是本实施方式涉及的推定装置300的硬件结构的一个例子。如图3所示，推定装置300是将CPU 301、RAM 302、储存器303、输入部304、输出部305、收音部306、拍摄部307、收发部309及驱动器310通过总线B3电气性地连接的计算机。

CPU 301由用于执行推定装置300的各种运算的1个或多个处理器构成。CPU 301是推定装置300的处理器资源的一个例子。处理器的种类也可以与实施方式相对应地适当选择。RAM 302是易失性的存储介质，作为保存在CPU 301使用的设定值等各种信息并且供各种程序展开的工作存储器而进行动作。储存器303是非易失性的存储介质，对由CPU 301使用的各种程序及数据进行存储。RAM 302及储存器303是保存由处理器资源执行的程序的推定装置300存储器资源的一个例子。

在本实施方式中，储存器303对程序83等各种信息进行存储。程序83是用于使推定装置300执行对满足度的推定模型进行训练的信息处理(后述的图5)、及使用训练好的推定模型对满足度进行推定的信息处理的程序。程序83包含该信息处理的一系列的命令。

输入部304至拍摄部307、驱动器310及存储介质93可以与演奏控制装置100的输入部104至拍摄部107、驱动器109及存储介质91相同地构成。程序83可以存储于存储介质93，推定装置300也可以从存储介质93读出程序83。

生物体传感器308构成为时序性地取得表示演奏者的生物体信息的生物体信号。演奏者的生物体信息例如可以由心率、出汗量、血压等1种或多种的数据构成。生物体传感器308例如可以由心率计、出汗计、血压计等传感器构成。

收发部309构成为，以无线或有线的方式与其他装置收发数据。在本实施方式中，推定装置300可以经由收发部309与演奏者在演奏乐曲时使用的电子乐器EM及演奏控制装置100连接，对数据进行收发。收发部309也可以与收发部108相同地包含多个模块。

总线B3是将推定装置300的上述硬件的结构要素相互且电气性地连接的信号传输路。此外，关于推定装置300的具体的硬件结构，能够与实施方式相对应地适当进行结构要素的省略、置换及追加。例如，也可以省略输入部304、输出部305、收音部306、拍摄部307、生物体传感器308、收发部309及驱动器310中的至少任一者。

＜3.软件结构例＞

图4示出本实施方式涉及的自动演奏系统S的软件结构的一个例子。

(演奏控制装置)

演奏控制装置100具有控制部150及存储部180。控制部150构成为，通过CPU 101及RAM 102综合地对演奏控制装置100的动作进行控制。存储部180构成为，通过RAM 102及储存器103对在控制部150中使用的各种数据进行存储。演奏控制装置100的CPU101将储存器103所存储的程序81展开至RAM 102，执行在RAM 102展开的程序81所包含的命令。由此，演奏控制装置100(控制部150)作为计算机而进行动作，该计算机具有认证部151、演奏取得部152、影像取得部153、演奏代理160及代理训练部170作为软件模块。

认证部151构成为，与推定装置300等外部装置协同动作而对用户(演奏者)进行认证。在一个例子中，认证部151构成为，将用户使用输入部104而输入的用户标识符及密码等认证数据发送至推定装置300，基于从推定装置300接收到的认证结果，对用户的访问进行许可或拒绝。此外，对用户进行认证的外部装置也可以是推定装置300以外的认证服务器。认证部151也可以构成为，将得到认证的(许可了访问的)用户的用户标识符供给至其他软件模块。

演奏取得部152构成为，对由演奏者进行的乐曲的第1演奏进行观测，取得表示该第1演奏的演奏数据(以下，还记载为“第1演奏数据”)。第1演奏数据例如是从电子乐器EM供给的带时间戳的MIDI数据列。在一个例子中，演奏取得部152也可以构成为，将由收音部106对第1演奏进行收音而输出的电信号所表示的演奏音，作为第1演奏数据而取得。第1演奏数据是表示演奏所包含的音的特性(例如，发音时刻及音高)的数据，是表现由演奏者进行的第1演奏的高维的时间序列数据的一种。演奏取得部152构成为，将取得的第1演奏数据供给至演奏代理160。演奏取得部152也可以构成为，将取得的第1演奏数据发送至推定装置300。

影像取得部153构成为，取得由演奏者进行的第1演奏涉及的影像数据。在一个例子中，影像取得部153也可以构成为，基于表示由拍摄部107拍摄到的第1演奏的演奏者的影像的电信号而取得影像数据。影像数据是表示演奏的演奏者的动作的特征的动作数据，是表现出由演奏者进行的演奏的高维的时间序列数据的一种。动作数据例如是时序性地取得演奏者的骨骼(骨架)的数据。影像取得部153构成为将取得的影像数据供给至演奏代理160。影像取得部153也可以构成为将取得的影像数据发送至推定装置300。

演奏代理160构成为，使演奏装置200执行与演奏者的合演的自动演奏。演奏代理160例如也可以构成为，执行基于国际公开2018/070286号所公开的方法、“音響信号によるリアルタイム楽譜追跡と能動的演奏支援システムに関する研究(关于音响信号的实时乐谱追踪与主动演奏辅助系统的研究)”(酒向慎司(名古屋工业大学)、電気通信普及財団“研究調査助成報告書”第31号、2016年度)所公开的方法等任意方法的自动演奏控制。自动演奏(第2演奏)例如可以是针对第1演奏的伴奏，也可以是对旋律(counter-melody)。

演奏代理160例如由具有根据当时的状态(例如，“两者(演奏者及演奏代理)的音量差”、“演奏代理的音量”、“演奏代理的节拍”、“两者的定时差”等)而决定所要执行的行动(例如，“将节拍提高1”、“将节拍降低1”、“将节拍降低10”、···、“将音量提高3”、“将音量提高1”、“将音量降低1”等)的多个参数的运算模型构成。演奏代理160也可以适当地构成为，基于上述多个参数决定与当时的状态相对应的行动(action)，按照所决定的行动对当时进行的演奏进行变更。在本实施方式中，演奏代理160构成为，通过该运算模型而包含演奏解析部161及演奏生成部162。以下例示出非限定且概略性的自动演奏控制。

演奏解析部161构成为，基于从演奏取得部152及影像取得部153供给的第1演奏数据及影像数据，对演奏者现在正演奏的乐曲上的位置即演奏位置进行推定。演奏解析部161对演奏位置的推定也可以与由演奏者进行的演奏并行地持续(例如，周期性地)执行。

在一个例子中，演奏解析部161也可以构成为，通过对第1演奏数据表示的一系列的音、和用于自动演奏的乐曲数据表示的一系列的音符进行比较，对演奏者的演奏位置进行推定。乐曲数据包含与由演奏者进行的第1演奏(演奏者声部)对应的参照数据、和表示由演奏代理160进行的第2演奏(自动演奏声部)的自动演奏数据。对于由演奏解析部161进行的演奏位置的推定，也可以适当采用任意的音乐解析技术(分数对齐(Score alignment)技术)。

演奏生成部162构成为，以与由演奏解析部161推定出的演奏位置的进行(时间轴上的移动)同步的方式，基于乐曲数据内的自动演奏数据而自动生成第2演奏的演奏数据(以下，还记载为“第2演奏数据”)，将已生成的第2演奏数据供给至演奏装置200。自动生的第2演奏数据是用于与第1演奏并行地进行的第2演奏的数据，是按照一系列的音符使演奏装置200的驱动机构进行动作的指示数据。换言之，演奏生成部162构成为，作为将实现与乐曲数据对应的乐曲的第2演奏数据(例如，带时间戳的MIDI数据列)向演奏装置200供给的时序器而进行动作。此外，演奏生成部162也可以构成为将第2演奏数据还供给至推定装置300。演奏装置200构成为，与从演奏生成部162供给的第2演奏数据相对应地进行乐曲的自动演奏即第2演奏。

此外，演奏代理160(演奏解析部161及演奏生成部162)的结构可以不限定于如上述的例子。在另一个例子中，演奏代理160(演奏解析部161及演奏生成部162)也可以构成为，不基于已有的乐曲数据，而基于表示演奏者的第1演奏的第1演奏数据，即兴地生成第2演奏数据，将所生成的第2演奏数据供给至演奏装置200，由此使演奏装置200执行自动演奏(即兴演奏)。

代理训练部170构成为，以使得演奏者针对第2演奏的满足度最大化的方式对演奏代理160进行训练。对于代理训练部170的动作，后面将详述。此外，演奏者针对第2演奏的满足度可以通过任意的方法而取得。在本实施方式中，取得满足度的处理由如下处理构成：取得演奏者的第1演奏涉及的演奏者信息，从取得的演奏者信息取得满足度。另外，从演奏者信息取得满足度的处理由如下处理构成：使用通过后述的机器学习而生成的训练好的推定模型(满足度推定模型)，根据演奏者信息对满足度进行推定。演奏者信息可以构成为，包含进行第1演奏的演奏者的影像。演奏者信息也可以构成为，包含从影像提取出的演奏者的表情及姿态中的至少任一者。演奏者信息还可以构成为，包含有在由演奏者进行第1演奏时取得的演奏者的生物体信号。该“第1演奏时”可以包含第1演奏期间及第1演奏结束后的余音残留期间。演奏者信息也可以构成为包含由演奏者进行的第1演奏的演奏数据。

(推定装置)

推定装置300具有控制部350及存储部380。控制部350构成为，通过CPU 301及RAM302综合地对推定装置300的动作进行控制。存储部380构成为，通过RAM 302及储存器303对在控制部350中使用的各种数据(特别是，后述的满足度推定模型)进行存储。推定装置300的CPU 301将储存器303所存储的程序83展开至RAM 302，执行在RAM 302展开的程序83所包含的命令。由此，推定装置300(控制部350)作为计算机而进行动作，该计算机具有认证部351、演奏取得部352、反应取得部353、满足度取得部354、数据前处理部355、模型训练部356及满足度推定部357作为软件模块。

认证部351构成为，与演奏控制装置100协同动作而对用户(演奏者)进行认证。在一个例子中，认证部351构成为，对从演奏控制装置100提供来的认证数据是否与存储部380所储存的认证数据是否一致进行判定，将认证结果(许可或拒绝)发送至演奏控制装置100。

演奏取得部352构成为，取得基于演奏者的第1演奏数据(演奏者信息)。第1演奏数据是音符列，是规定了各音符的发音定时、音长、音高及强度的数据。在一个例子中，演奏取得部352可以构成为，从电子乐器EM直接或经由演奏控制装置100而取得从电子乐器EM供给来的表示第1演奏的演奏数据。在另一个例子中，演奏取得部352也可以构成为，使用收音部306或演奏控制装置100而取得表示第1演奏的演奏音。演奏取得部352构成为将取得的第1演奏数据存储于存储部380。演奏取得部352也可以构成为，将由认证部351认证后的演奏者的用户标识符与所取得的第1演奏数据相关联起来。

反应取得部353构成为，取得表示进行第1演奏的演奏者的反应的反应数据(演奏者信息)。在一个例子中，反应取得部353也可以构成为，取得由拍摄部307拍摄的、反映出进行第1演奏的演奏者的反应的影像作为反应数据。反应取得部353也可以取得从所取得的影像提取出的演奏者的表情及姿态中的至少任一者作为反应数据。另外，反应取得部353还可以取得在演奏者进行第1演奏时由生物体传感器308取得的演奏者的生物体信号作为反应数据。生物体信号例如由心率、出汗量、血压等1种或多种的数据构成。

满足度取得部354构成为，取得表示与演奏代理160(演奏装置200)的合演中的演奏者的个人满足度的满足度标签(正确标签)。满足度标签是表示演奏者针对演奏代理160(或对演奏代理160进行模拟的任意方法)进行的第2演奏的满足度的数据。满足度可以由表示分级评价的离散值表现，或者由连续值表现。演奏者可以经由演奏控制装置100的输入部104、推定装置300的输入部304等输入装置而输入满足度标签。在向演奏控制装置100输入了满足度标签的信息的情况下，满足度标签可以通过控制部150(CPU 101)而转发至推定装置300，满足度取得部354也可以构成为，接收从演奏控制装置100转发的满足度标签。满足度取得部354构成为，将取得的满足度标签与第1演奏涉及的演奏者信息(第1演奏数据、反应数据)相关联地存储于存储部380。

数据前处理部355构成为，以使得将向用于推定演奏者的满足度的推定模型(以下，还记载为“满足度推定模型”)输入的数据(演奏者信息等)成为适合于推定模型的运算的形式的方式进行前处理。数据前处理部355构成为，将在训练阶段中进行了前处理的数据供给至模型训练部356，将在推定阶段中进行了前处理的数据供给至满足度推定部357。

模型训练部356构成为，将从数据前处理部355供给的演奏者信息及满足度标签分别作为输入数据(训练数据)及教师信号(正确数据)而使用，通过机器学习对满足度推定模型进行训练。满足度推定模型可以由具有多个参数的任意的机器学习模型构成。对于构成满足度推定模型的机器学习模型，例如可以使用由多层感知器构成的前馈型神经网络(FFNN)、隐马尔可夫模型(HMM)等。除此以外，对于构成满足度推定模型的机器学习模型，例如也可以使用适合于时间序列数据的循环神经网络(RNN)、其衍生结构(长短期存储(LSTM)、门控循环单元(GRU)等)、卷积神经网络(CNN)等。机器学习由如下处理构成，即，以使得通过满足度推定模型从训练用的演奏者信息推定出的满足度适合于由满足度标签示出的真值的方式对满足度推定模型进行训练。机器学习的方法可以与所采用的机器学习模型的种类相对应地适当选择。通过机器学习生成的训练好的满足度推定模型也可以以学习结果数据的形式适当保存于存储部380等存储区域。

满足度推定部357具有由模型训练部356生成的训练好的满足度推定模型。满足度推定部357构成为，使用训练好的满足度推定模型，根据在推论时得到的演奏者信息对演奏者的满足度进行推定。具体而言，满足度推定部357对训练好的满足度推定模型输入从数据前处理部355供给的前处理后的演奏者信息作为输入数据，执行训练好的满足度推定模型的运算处理。通过该运算处理，满足度推定部357从训练好的满足度推定模型取得与根据所输入的演奏者信息推定出演奏者的满足度的结果相对应的输出。被推定出的满足度(满足度的推定结果)被供给至演奏控制装置100的代理训练部170。

(其他)

在本实施方式中，对演奏控制装置100及推定装置300的各软件模块都通过通用的CPU实现的例子进行了说明。但是，上述软件模块的一部分或全部可以通过1个或多个专用的处理器实现。上述各模块也可以作为硬件模块而实现。另外，关于演奏控制装置100及推定装置300各自的软件结构，也可以根据实施方式而适当进行软件模块的省略、置换及追加。

＜4.动作例＞

(满足度推定模型的训练处理)

图5是表示由本实施方式涉及的自动演奏系统S进行的满足度推定模型的训练处理的一个例子的流程图。以下的处理流程不过是一个例子，各步骤可以尽可能地进行变更。另外，对于以下的处理流程，可以根据实施方式而适当地进行步骤的省略、置换及追加。

在步骤S510中，推定装置300的CPU 301取得演奏者的第1演奏涉及的演奏者信息。在本实施方式中，演奏者信息可以构成为，包含表示由演奏者进行的第1演奏的第1演奏数据、在由演奏者进行第1演奏时取得的演奏者的生物体信号、进行第1演奏的演奏者的影像以及从影像提取出的演奏者的表情及姿态中的至少任一者。在演奏者信息构成为包含第1演奏数据的情况下，CPU 301作为演奏取得部352而进行动作，取得表示由演奏者进行的第1演奏的第1演奏数据。在演奏者信息构成为包含有在由演奏者进行第1演奏时取得的演奏者的生物体信号、进行第1演奏的演奏者的影像以及从影像提取出演奏者的表情及姿态中的至少任一者的情况下，CPU 301作为反应取得部353而进行动作，取得表示进行第1演奏的演奏者的反应的反应数据。CPU 301将所取得的演奏者信息储存于存储部380。此外，在取得该满足度推定模型的训练用的演奏者信息时，可以以任意的方法(使用演奏代理160的方法或其以外的方法)与第1演奏并行地进行第2演奏。

在步骤S520中，CPU 301作为满足度取得部354而进行动作，取得表示演奏者针对第2演奏的满足度的满足度标签。在一个例子中，CPU 301可以通过经由输入装置的演奏者的输入而取得满足度标签。CPU 301将所取得的满足度标签与演奏者信息相关联地储存于存储部380。

此外，步骤S510及步骤S520的处理可以并行地执行，或者也可以依次执行。

在步骤S530中，CPU 301作为数据前处理部355而进行动作，针对存储部380所储存的演奏者信息进行数据前处理，将前处理后的演奏者信息供给至模型训练部356。

在步骤S540中，CPU 301作为模型训练部356而进行动作，将进行了前处理后的演奏者信息及满足度标签分别作为输入数据(训练数据)及教师信号(正确数据)而使用，执行满足度推定模型的机器学习。即，CPU 301以使得通过满足度推定模型从训练用的演奏者信息推定出的满足度适合于由满足度标签表示的真值的方式对满足度推定模型进行训练。

通过该机器学习，生成获得了根据演奏者信息对演奏者的满足度进行推定的能力的训练好的满足度推定模型。CPU 301生成表示训练好的满足度推定模型的学习结果数据，将所生成的学习结果数据保存于存储部380等存储区域。在该机器学习是追加学习或再学习的情况下，CPU 301通过新生成的学习结果数据，对存储部380等存储区域所保存的学习结果数据进行更新。

如上所述，本动作例涉及的满足度推定模型的训练处理结束。上述训练处理可以定期地执行，或者也可以根据来自用户(演奏控制装置100)的要求而执行。此外，也可以在执行步骤S510的处理之前，演奏控制装置100的CPU 101及推定装置300的CPU 301分别作为认证部(151、351)而进行动作，对演奏者进行认证。由此，也可以对得到认证的演奏者的演奏者信息及满足度标签进行收集，生成训练好的满足度推定模型。

(演奏代理的训练处理)

图6是表示由本实施方式涉及的自动演奏系统S进行的演奏代理的训练处理的一个例子的流程图。以下的处理流程是演奏代理的训练方法的一个例子。但是，以下的处理流程不过是一个例子，各步骤也可以尽可能地变更。另外，关于以下的处理流程，可以根据实施方式而适当地进行步骤的省略、置换及追加。

在步骤S610中，演奏控制装置100的CPU 101及推定装置300的CPU 301中的至少任一者对由演奏者进行的乐曲的第1演奏进行观测，取得表示第1演奏的第1演奏数据。CPU101也可以作为演奏取得部152而进行动作，取得第1演奏数据。或者，CPU 301也可以作为演奏取得部352而进行动作，取得第1演奏数据。所取得的第1演奏数据可以储存于存储部180及存储部380中的至少任一者。

在步骤S620中，CPU 101通过演奏代理160，生成表示与所观测的第1演奏并行地进行的第2演奏的第2演奏数据。CPU 101作为演奏解析部161及演奏生成部162而进行动作，执行构成演奏代理的运算模型的运算处理，由此对演奏者的演奏位置进行推定，以与所推定的演奏位置同步的方式生成第2演奏数据。

在步骤S630中，CPU 101作为演奏生成部162而进行动作，以与演奏者的第1演奏并行地进行第2演奏的方式输出第2演奏数据。在一个例子中，CPU 101将所生成的第2演奏数据供给至演奏装置200，以按照第2演奏数据而执行自动演奏的方式对演奏装置200的动作进行控制。

在步骤S640中，演奏控制装置100的CPU 101及推定装置300的CPU 301中的至少任一者取得演奏者的第1演奏涉及的演奏者信息。在演奏者信息构成为包含第1演奏数据的情况下，步骤S640的处理可以与步骤S610共通地执行。在演奏者信息构成为包含有在由演奏者进行第1演奏时取得的演奏者的生物体信号、进行第1演奏的演奏者的影像以及从影像提取出的演奏者的表情及姿态中的至少任一者的情况下，CPU 301可以作为反应取得部353而进行动作，取得表示进行第1演奏的演奏者的反应的反应数据。或者，CPU 101也可以作为影像取得部153而进行动作，取得进行第1演奏的演奏者的影像以及从影像提取出的演奏者的表情及姿态中的至少任一者。所取得的演奏者信息也可以储存于存储部180及存储部380中的至少任一者。

在步骤S650中，所取得的演奏者信息被供给至数据前处理部355。推定装置300的CPU 301作为数据前处理部355而进行动作，针对演奏者信息而进行数据前处理，将前处理后的演奏者信息供给至满足度推定部357。而且，CPU 301作为满足度推定部357而进行动作，使用训练好的推定模型，根据所取得的演奏者信息，对演奏者针对基于所输出的第2演奏数据的第2演奏的满足度进行推定。所推定的满足度被从满足度推定部357供给至演奏控制装置100的代理训练部170。

在步骤S660中，演奏控制装置100的CPU 101对是否开始演奏代理160的训练进行判定。例如，CPU 101可以判定为在收集到强化学习所使用的数据的、由演奏者进行的第1演奏结束等任意的定时，开始演奏代理160的训练。在判定为开始训练的情况下，CPU 101使处理进入步骤S670。另一方面，在判定为没有开始训练的情况下，CPU 101使处理进入步骤S610，反复执行步骤S610～步骤S650的一系列的处理，针对演奏代理160持续进行用于在训练中使用的学习数据的收集。

此外，步骤S610～步骤S650的处理可以在演奏者和演奏代理160的合演中逐次执行，其结果，演奏者的满足度也可以时序性地进行推定。满足度可以针对单位时间进行推定，或者也可以针对任意的演奏单位(例如，乐句)而进行推定。步骤S610～步骤S650的处理可以与演奏者进行第1演奏并行地实时执行，或者也可以针对存储部180及存储部380中的至少任一者所存储的第1演奏而事后执行。

在步骤S670中，CPU 101作为代理训练部170而进行动作，使用通过直至步骤S660为止的处理而收集到的学习数据，执行演奏代理160的机器学习。

图7示出由本实施方式涉及的自动演奏系统S进行的演奏代理160的训练(机器学习)的处理的一个例子。在本实施方式中，CPU101将演奏者针对第2演奏的满足度作为报酬使用，执行演奏代理160的强化学习。

在本实施方式的强化学习中，如图7所示，由演奏者进行的第1演奏相当于被观测的“状态”，由满足度推定部357推定出的演奏者的满足度相当于“报酬”，由演奏代理160及演奏装置200进行的第2演奏相当于“行动”。与由演奏代理160及演奏装置200进行的“行动”即第2演奏对应地，作为“状态”的由演奏者进行的第1演奏发生变化，并且对作为“报酬”的演奏者的满足度进行推定。第1演奏、第2演奏及满足度都是时间序列数据。在“状态”也可以包含与演奏相关的其他信息(例如，乐曲数据、反应数据)。

CPU 101通过强化学习，将取得的满足度作为报酬而使用，以使得演奏者针对第2演奏的满足度最大化的方式对演奏代理160进行训练。更具体而言，CPU 101以自动生成使得在将来所取得的演奏者的满足度之和(即，“收益”)最大化的第2演奏数据的方式，对演奏代理160进行训练。在该训练过程中，构成演奏代理160的各参数的值以使得所获得的报酬增加的方式逐渐变更。在一个例子中，演奏代理160可以构成为具有价值函数(例如，行动价值函数)，对于强化学习的方法，例如也可以采用Q学习、蒙特卡罗法(Monte Carlo method)等方法。在另一个例子中，演奏代理160可以构成为具有策略函数，对于强化学习的方法，例如可以采用策略梯度法等方法。强化学习的方法及演奏代理160的结构可以根据实施方式而适当选择。

如上所述，本动作例涉及的演奏代理160的训练处理结束。上述训练处理可以在任意的定时执行。此外，也可以与上述满足度推定模型的机器学习相同地，在执行步骤S610的处理之前，演奏控制装置100的CPU 101及推定装置300的CPU 301分别作为认证部(151、351)而进行动作，对演奏者进行认证。由此，自动演奏系统S也可以对得到认证的演奏者的学习数据进行收集，使用所收集的学习数据而执行演奏代理160的训练。另外，自动演奏系统S也可以通过执行步骤S610～步骤S630的处理(即，省略步骤S640及其以后的处理)，从而进行由演奏代理160实现的自动演奏，不伴随执行演奏代理160的训练。

(特征)

根据本实施方式，能够自动地生成适合于演奏者的演奏代理160。因此，能够实现生成适合于演奏者的演奏代理160的成本的降低。另外，在本实施方式中，能够通过使用演奏者信息而自动取得演奏者的满足度。由此，能够削减取得满足度的工时。另外，在本实施方式中，使用通过机器学习而生成的训练好的满足度推定模型，由此能够适当地取得满足度。进一步地，在本实施方式中，演奏者信息可以构成为，包含表示由演奏者进行的第1演奏的第1演奏数据、在演奏者进行第1演奏时取得的演奏者的生物体信号、进行第1演奏的演奏者的影像以及从影像提取出的演奏者的表情及姿态中的至少任一者。由此，能够高精度地推定满足度。

＜5.变形例＞

以上，对本发明的实施方式详细进行了说明，但前述的说明在所述方面不过是本发明的例示。当然可以在不脱离本发明的范围的前提下进行各种改良或变形。例如，可以如以下那样变更。此外，以下的变形例可以适当组合。

在上述实施方式中，自动演奏系统S具有演奏控制装置100、演奏装置200、推定装置300及电子乐器EM作为单独的装置。但是，上述装置中的至少任意多个装置也可以一体地构成。在另一个例子中，演奏控制装置100及演奏装置200可以一体地构成。或者，演奏控制装置100及推定装置300也可以一体地构成。

在上述实施方式中，可以省略演奏装置200。在该情况下，自动演奏系统S可以构成为，通过演奏控制装置100对外部的演奏装置供给第2演奏数据，由此实现第2演奏的自动演奏。

在上述实施方式中，将通过机器学习而生成的训练好的满足度推定模型用于满足度的取得。但是，取得满足度的方法可以不限定于如上述的例子。满足度也可以通过其他方法从演奏者信息取得。或者，满足度也可以不依赖于演奏者信息而取得。用于演奏代理160的训练的演奏者的满足度也可以通过任意的方法取得。作为另一个例子，也可以通过规定的算法，根据演奏者信息而计算出满足度。作为另一个例子，满足度也可以通过经由演奏控制装置100的输入部104、推定装置300的输入部304等输入装置的演奏者的操作而直接输入。

另外，强化学习的方法可以不限于上述方法。在另一个例子中，对于演奏代理160的运算模型，例如可以使用高斯过程回归(贝叶斯优化)模型。另外，对于机器学习的方法，也可以采用模仿生物进化过程的方法即遗传算法。

此外，上述各存储介质(91、93)可以由计算机可读取的非暂时性的记录介质构成。另外，程序(81、83)可以经由传输介质等进行供给。此外，“计算机可读取的非暂时性的记录介质”例如在经由互联网、电话线路等通信网络而发送程序的情况下，还可以包含例如如构成服务器、客户端等的计算机系统内部的易失性存储器(例如DRAM(Dynamic RandomAccess Memory))那样将程序保存一定时间的记录介质。

(附录)

一种演奏代理的训练方法，其是通过计算机实现的，

具有如下处理：

对由演奏者进行的乐曲的第1演奏进行观测，

使用演奏代理，生成与所述观测的第1演奏相对应的第2演奏的演奏数据，

将所述演奏数据供给至播放装置(再现装置)(例如，电子乐器、钢琴家等)，使所述播放装置与所述第1演奏并行地对所述第2演奏进行播放(再现)，

对所述演奏者针对所播放(再现)的第2演奏的满足度进行观测，

通过将所述满足度作为报酬而使用的强化学习，以使得所获得的满足度最大化的方式，对所述演奏代理在生成所述演奏数据时所按照的参数进行调整。

标号的说明

100…演奏控制装置，150…控制部，180…存储部，200…演奏装置，300…推定装置，350…控制部，380…存储部，EM…电子乐器，S…自动演奏系统。

Claims

1.一种演奏代理的训练方法，其是通过计算机实现的，

具有如下处理：

对由演奏者进行的乐曲的第1演奏进行观测，

通过演奏代理，生成与所观测的所述第1演奏并行地进行的第2演奏的演奏数据，

以与所述演奏者的所述第1演奏并行地进行所述第2演奏的方式输出所述演奏数据，

取得所述演奏者针对基于所输出的所述演奏数据进行的所述第2演奏的满足度，

通过强化学习，将取得的所述满足度作为报酬而使用，以使得在将来所取得的所述满足度之和最大化的方式对所述演奏代理进行训练。

2.根据权利要求1所述的演奏代理的训练方法，其中，

取得所述满足度的处理由如下处理构成：取得所述演奏者的所述第1演奏涉及的演奏者信息，从所取得的所述演奏者信息取得所述满足度。

3.根据权利要求2所述的演奏代理的训练方法，其中，

取得所述满足度的处理由如下处理构成：使用通过机器学习而生成的训练好的推定模型，根据所述演奏者信息对所述满足度进行推定。

4.根据权利要求2或3所述的演奏代理的训练方法，其中，

所述演奏者信息包含进行所述第1演奏的所述演奏者的影像。

5.根据权利要求4所述的演奏代理的训练方法，其中，

所述演奏者信息包含从所述影像提取出的所述演奏者的表情及姿态中的至少任一者。

6.根据权利要求2至5中任一项所述的演奏代理的训练方法，其中，

所述演奏者信息包含有在所述演奏者进行所述第1演奏时取得的所述演奏者的生物体信号。

7.根据权利要求2至6中任一项所述的演奏代理的训练方法，其中，

所述演奏者信息包含由所述演奏者进行的所述第1演奏的演奏数据。

8.一种自动演奏系统，其具有：

处理器资源；以及

存储器资源，其对由所述处理器资源执行的程序进行保存，

在所述自动演奏系统中，构成为，

所述处理器资源通过执行所述程序而实现如下处理：

对由演奏者进行的乐曲的第1演奏进行观测，

9.根据权利要求8所述的自动演奏系统，其中，

还具有演奏装置，该演奏装置按照所述第2演奏的所述演奏数据进行所述第2演奏。

10.根据权利要求8或9所述的自动演奏系统，其中，

11.根据权利要求10所述的自动演奏系统，其中，

12.根据权利要求10或11所述的自动演奏系统，其中，

所述演奏者信息包含进行所述第1演奏的所述演奏者的影像。

13.根据权利要求12所述的自动演奏系统，其中，

14.根据权利要求10至13中任一项所述的自动演奏系统，其中，

所述演奏者信息包含有在由所述演奏者进行所述第1演奏时取得的所述演奏者的生物体信号。

15.根据权利要求10至14中任一项所述的自动演奏系统，其中，

16.一种程序，其用于使计算机执行如下处理：

对由演奏者进行的乐曲的第1演奏进行观测，