CN115210803A

CN115210803A - 对观众针对演奏数据的评价进行推论的方法、系统及程序

Info

Publication number: CN115210803A
Application number: CN202180018029.0A
Authority: CN
Inventors: 前泽阳
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2020-03-04
Filing date: 2021-02-02
Publication date: 2022-10-18
Also published as: WO2021176925A1; JPWO2021176925A1; US20220414472A1

Abstract

取得学习模型，该学习模型对表示由演奏者进行的演奏的第1演奏数据和表示由接收到演奏的观众进行的评价的第1评价数据之间的关系进行了学习，取得第2演奏数据，使用学习模型，对第2演奏数据进行处理，对针对该第2演奏数据的评价进行推论，输出表示推论结果的第2评价数据。

Description

对观众针对演奏数据的评价进行推论的方法、系统及程序

技术领域

本发明涉及对观众针对演奏数据的评价进行推论的方法、系统及程序。

背景技术

以往，使用着对用户进行的演奏操作进行评价的演奏评价装置。例如，在专利文献1公开了从已被演奏的乐曲整体之中将一部分选择性地作为对象而评价演奏操作的技术。

专利文献1：日本专利第3678135号

发明内容

专利文献1所公开的是对由用户进行的演奏的正确度进行评价的技术，不是对演奏以何种程度受到观众评价(观众会不会喜欢)进行推论的技术。为了用户适当地改善自己的演奏，要求事先对针对演奏的评价进行推论。

本发明的目的在于提供适当地对针对演奏数据的评价进行推论的方法、系统、及程序。

为了实现上述目的，本发明的一个方式涉及的方法是通过计算机实现的，取得学习模型，该学习模型对表示由演奏者进行的演奏的第1演奏数据和表示由接收到所述演奏的观众进行的评价的第1评价数据之间的关系进行了学习，取得第2演奏数据，使用所述学习模型，对所述第2演奏数据进行处理，对针对该第2演奏数据的评价进行推论，输出表示推论结果的第2评价数据。

发明的效果

根据本发明，能够适当地推论针对演奏数据的评价。

附图说明

图1是表示本发明的实施方式涉及的信息处理系统的整体结构图。

图2是表示本发明的实施方式涉及的信息处理装置的硬件结构的框图。

图3是表示本发明的实施方式涉及的学习服务器的硬件结构的框图。

图4是表示本发明的实施方式的信息处理系统的功能性结构的框图。

图5是表示本发明的实施方式的机器学习处理的时序图。

图6是表示本发明的实施方式的推论提示处理的时序图。

具体实施方式

以下，参照附图详细地说明本发明的实施方式。以下所说明的各实施方式不过是能够实现本发明的结构的一个例子。以下的各实施方式能够根据应用本发明的装置的结构、各种条件而适当进行修正或变更。另外，以下的各实施方式所包含的要素的全部组合并非都是实现本发明所必须的，可以适当地省略要素的一部分。因此，本发明的范围并不由以下的各实施方式所记载的结构限定。另外，只要彼此不矛盾，则还可以采用将实施方式内所记载的多个结构组合而得到的结构。

图1是表示本发明的实施方式涉及的信息处理系统S的整体结构图。如图1所示，本实施方式的信息处理系统S具有信息处理装置100及学习服务器200。信息处理装置100及学习服务器200能够经由网络NW而相互进行通信。在网络NW也可以连接有后述的传送服务器DS。

信息处理装置100是用户使用的信息终端，例如是平板终端、智能手机、个人计算机(PC)等个人设备。另外，信息处理装置100也可以以无线或有线的方式与后述的电子乐器EM连接。

学习服务器200是与网络NW连接的云服务器，能够对后述的学习模型M进行训练而将训练出的学习模型M供给至信息处理装置100等其他装置。服务器300不限于云服务器，也可以是本地网络的服务器。另外，本实施方式的服务器300的功能也可以通过云端服务器和本地网络的服务器的协同动作而实现。

在本实施方式的信息处理系统S，通过将推论对象的演奏数据A输入至对表示由演奏者进行的演奏的演奏数据A和表示针对演奏的评价的评价数据B之间的关系进行了机器学习的学习模型M，从而能对针对所输入的演奏数据A的评价进行推论。

图2是表示信息处理装置100的硬件结构的框图。如图2所示，信息处理装置100具有CPU(Central Processing Unit)101、RAM(Random Access Memory)102、储存器103、输入输出部104、收音部105、拍摄部106、收发部107及总线108。

CPU 101是执行信息处理装置100的各种运算的处理电路。RAM 102是易失性的存储介质，作为对CPU 101所使用的设定值进行存储并且供各种程序展开的工作存储器起作用。储存器103是非易失性的存储介质，对由CPU 101使用的各种程序及数据进行存储。

输入输出部104是接受用户针对信息处理装置100的操作并且对各种信息进行显示的要素(用户接口)，例如由触摸面板构成。

收音部105是将收音到的声音变换为电气信号而供给至CPU 101的要素，例如是传声器。收音部105可以内置于信息处理装置100，也可以经由未图示的接口与信息处理装置100连接。

拍摄部106是将拍摄到的影像变换为电气信号而供给至CPU 101的要素，例如是数字相机。拍摄部106可以内置于信息处理装置100，也可以经由未图示的接口与信息处理装置100连接。

收发部107是与学习服务器200等其他装置进行数据的收发的要素。收发部107与在用户演奏乐曲时使用的电子乐器EM连接而能够对数据进行收发。收发部107可以包含多个模型(例如，用于近距离无线通信的Bluetooth(注册商标)模型及Wi-Fi(注册商标)模型)。

总线108是将上述的信息处理装置100的硬件要素相互连接的信号传输路。

图3是表示学习服务器200的硬件结构的框图。如图3所示，学习服务器200具有CPU201、RAM 202、储存器203、输入部204、输出部205、收发部206及总线207。

CPU 201是执行学习服务器200的各种运算的处理电路。RAM 202是易失性的存储介质，作为对CPU 201所使用的设定值进行存储并且供各种程序展开的工作存储器起作用。储存器203是非易失性的存储介质，对由CPU 201使用的各种程序及数据进行存储。

输入部204是接受针对学习服务器200的操作的要素，接受来自例如与学习服务器200连接的键盘及鼠标的输入信号。

输出部205是对各种信息进行显示的要素，针对例如与学习服务器200连接的液晶显示器而输出影像信号。

收发部206是与信息处理装置100等其他装置收发数据的要素，例如是网卡(NIC)。

总线207是将上述的学习服务器200的硬件要素相互连接的信号传输路。

上述的各装置100、200的CPU 101、201通过将在储存器103、203储存的程序读出至RAM 102、202并执行，由此实现以下的功能块(控制部150、250等)及本实施方式涉及的各种处理。各CPU不限于通常的CPU，可以是DSP、推论处理器，或者也可以是上述2个以上的任意组合。另外，本实施方式涉及的各种处理也可以通过由CPU、DSP、推论处理器、GPU等1个以上的处理器执行程序而实现。

图4是表示本发明的实施方式涉及的信息处理系统S的功能性结构的框图。

学习服务器200具有控制部250及存储部260。控制部250是对学习服务器200的动作综合地进行控制的功能块。存储部260由RAM 202及储存器203构成，对由控制部250使用的各种数据(特别是演奏数据A及评价数据B)进行存储。控制部250具有服务器认证部251、数据取得部252、数据前处理部253、学习处理部254及模型发行部255，作为子功能块。

服务器认证部251是与信息处理装置100(认证部151)协同动作而对用户进行认证的功能块。服务器认证部251对从信息处理装置100供给来的认证数据是否与存储部260所储存的认证数据一致进行判定，将认证结果(许可或拒绝)发送至信息处理装置100。

数据取得部252是经由网络NW从外部的传送服务器DS接收传送数据而取得演奏数据A及评价数据B的功能块。传送服务器DS例如是将现场动画等包含影像及声音的动画作为传送数据而传送的服务器。在传送数据包含表示演奏者的演奏的影像数据(例如，动画数据)、声音数据(例如，音频数据)、及操作数据(例如，MIDI数据)。另外，在传送数据包含针对演奏的主观数据。主观数据是针对演奏者的演奏由视听者赋予的评价值，与动画时序性地相关联。例如，在评价数据的评价值可以赋予相对应的动画的时刻，也可以赋予动画的序列号(帧编号)。另外，动画和主观数据也可以一体地构成。此外，优选将表示演奏中的由演奏者进行的演奏操作的MIDI数据等操作数据包含于传送数据。在操作数据也可以包含电子钢琴的踏板操作、电吉他的效果器操作。

数据取得部252通过将在接收到的传送数据所包含的影像数据及声音数据在时序上分割为多个演奏片段而取得演奏数据A，并存储于存储部260。数据取得部252可以将影像数据及声音数据针对由演奏的停顿示出的每个乐句而分割为演奏片段，也可以基于演奏的主题(motif)而分割为演奏片段，还可以基于和弦模式而分割为演奏片段。

此外，演奏数据A也可以取代在时序上被分割出的声音数据或在其基础上而包含在时序上被分割出的操作数据。即，演奏数据A包含表示通过演奏生成的声音的声音数据及基于电子乐器EM的演奏生成的操作数据的任一者或两者。

另外，数据取得部252基于在接收到的传送数据所包含的主观数据及评价时刻，取得包含表示针对被分割出的每个演奏片段的评价的评价片段的评价数据B而存储于存储部260。评价数据B是表示针对时序性地构成的演奏数据A的时序性的评价的推移的数据。在评价数据B所包含的评价片段可以包含相对应的演奏片段的时刻，可以附加与演奏片段和评价片段相对应的序列号，还可以将评价片段嵌入于相对应的演奏片段。数据取得部252将取得的演奏数据A及评价数据B存储于存储部260。

数据前处理部253是针对在存储部260存储的演奏数据A及评价数据B以成为适于学习模型M的训练(机器学习)的形式的方式执行缩放等数据前处理的功能块。

学习处理部254是将数据前处理后的演奏数据A作为输入数据，将数据前处理后的评价数据B用作教师数据，对学习模型M进行训练的功能块。对于本实施方式的学习模型M，可以采用任意的机器学习模型。优选地，在学习模型M采用适于时序数据的递归神经网络(RNN)及其衍生物(长短期存储(LSTM)、门控递归单元(GRU)等)。也可以按照基于注意力(Attention)机制的算法而构成学习模型M。

模型发行部255是将由学习处理部254训练好的学习模型M供给至信息处理装置100的功能块。

信息处理装置100具有控制部150及存储部160。控制部150是对信息处理装置100的动作综合性地进行控制的功能块。存储部160由RAM 102及储存器103构成，对由控制部150使用的各种数据进行存储。控制部150具有认证部151、演奏取得部152、动画取得部153、数据前处理部154、推论处理部155及评价提示部156，作为子功能块。

认证部151是与学习服务器200(服务器认证部251)协同动作而对用户进行认证的功能块。认证部151将由用户使用输入输出部104而输入的用户识别符及密码等认证数据发送至学习服务器200，基于从学习服务器200接收到的认证结果对用户的访问进行许可或拒绝。认证部151能够将被认证的(许可了访问的)用户的用户识别符供给至其他功能块。

演奏取得部152是取得表示用户的演奏的声音数据及操作数据的任一者或两者的功能块。声音数据及操作数据都是表示演奏涉及的乐曲所包含的多个音的特性(例如，发音时刻及音高)的数据(声音特性数据)，是表现出由用户进行的演奏的高维的时序数据的一种。演奏取得部152也可以基于由收音部105对通过用户的演奏得到的声音进行收音而生成的电气信号，取得声音数据。另外，演奏取得部152也可以经由收发部107从电子乐器EM取得基于由用户进行的电子乐器EM的演奏而生成的操作数据。电子乐器EM例如可以是电子钢琴等电子键盘乐器，也可以是电吉他等电子弦乐器，还可以是电吹管合成器(windsynthesizer)等电子管乐器。演奏取得部152将取得的声音特性数据供给至数据前处理部154。此外，演奏取得部152还能够将从认证部151供给来的用户识别符赋予给声音特性数据而发送至学习服务器200。

动画取得部153是取得表示用户的演奏的影像数据的功能块。影像数据是表示演奏的用户(演奏者)的动作的特征的动作数据，是表现出由用户进行的演奏的高维的时序数据的一种。动画取得部153可以基于由拍摄部106对演奏中的用户进行拍摄而生成的电气信号，取得动作数据。动作数据例如是在时序性地取得用户的骨格(骨架)的数据。动画取得部153将取得的影像数据供给至数据前处理部154。此外，动画取得部153还能够将从认证部151供给来的用户识别符赋予给影像数据而发送至学习服务器200。

数据前处理部154是针对包含从演奏取得部152供给来的声音特性数据及从动画取得部153供给来的影像数据在内的演奏数据A，以使得适于由学习模型M进行的推论的形式的方式执行缩放等数据前处理的功能块。

推论处理部155是通过针对由前述的学习处理部254训练好的学习模型M，将进行了前处理的演奏数据A作为输入数据而输入，从而对表示针对演奏数据A的评价的评价数据B进行推论的功能块。此外，评价数据B如前述那样包含评价片段，该评价片段表示针对演奏数据A所包含的多个演奏片段各自的评价。

评价提示部156是将由推论处理部155推论出的评价数据B提示给用户的功能块。评价提示部156例如将演奏数据A所包含的多个演奏片段各自的评价时序性地显示于输入输出部104。此外，评价提示部156可以取代在视觉上对评价数据B进行提示或在其基础上而将评价数据B在听觉上或在触觉上提示给用户。另外，评价提示部156也可以在其他装置例如电子乐器EM所具有的显示部显示上述评价。

图5是表示本发明的实施方式涉及的信息处理系统S的机器学习处理的时序图。本实施方式的机器学习处理是在学习服务器200执行的。此外，本实施方式的机器学习处理可以定期地执行，也可以根据基于用户指示的来自信息处理装置100的请求而执行。

在步骤S510，数据取得部252基于从传送服务器DS接收到的传送数据而取得演奏数据A及评价数据B，并储存于存储部260。此外，传送数据可以是由数据取得部252预先取得而储存于存储部260的，也可以是在本步骤中由数据取得部252取得的。

在步骤S520，数据前处理部253将包含有在存储部260储存的演奏数据A及评价数据B的数据集读出而执行数据前处理。

在步骤S530，学习处理部254基于由步骤S520进行了前处理的数据集，将演奏数据A作为发行数据，将评价数据B用作教师数据，对学习模型M进行训练，将训练好的学习模型M储存于存储部260。例如，在学习模型M是神经网络系统的情况下，学习处理部254也可以使用误差反向传播法等而进行学习模型M的机器学习。

在步骤S540，模型发行部255将由步骤S530训练好的学习模型M经由网络NW而供给至信息处理装置100。信息处理装置100的控制部150将接收到的学习模型M储存于存储部160。

图6是表示本发明的实施方式涉及的信息处理系统S的推论提示处理的时序图。在本实施方式，信息处理装置100对每个演奏片段的评价进行推论，将推论出的评价在视觉上提示给用户。

在步骤S610，演奏取得部152如前述那样从电子乐器EM等取得声音数据及操作数据的任一者或两者(声音特性数据)，并供给至数据前处理部154。

在步骤S620，动画取得部153如前述那样取得影像数据而供给至数据前处理部154。

在步骤S630，数据前处理部154针对包含通过步骤S610从演奏取得部152供给来的声音特性数据及通过步骤S620从动画取得部153供给来的影像数据在内的演奏数据A执行数据前处理，将前处理后的演奏数据A供给至推论处理部155。

在步骤S640，推论处理部155针对在存储部160储存的训练好的学习模型M，将从数据前处理部154供给来的演奏数据A作为输入数据而输入。学习模型M对所输入的演奏数据A进行处理，对观众针对该演奏数据A所包含的各演奏片段的评价进行推论。表示评价的推论值可以是离散值，也可以是连续值。推论出的针对每个演奏片段的评价(评价数据B)被从推论处理部155供给至评价提示部156。

在步骤S650，评价提示部156将通过步骤S640由推论处理部155推论出的评价数据B提示给用户。对于针对用户的评价数据B的提示，可以设想到各种方式。

例如，设想对针对用户的演奏由虚拟的观众(例如、VR(Virtual Reality)空间上的化身)表现出的反应进行模拟并显示的应用。在以上的应用中，评价提示部156与演奏数据A的重现同步地，基于评价数据B将虚拟的观众表现出的反应显示于输入输出部104。评价提示部156在推论出的评价高于阈值的时刻显示出表示起立、欢呼等气氛高涨的反应，另一方面，在推论出的评价低于阈值的时刻显示出表示静坐、安静、起哄等气氛低沉的反应。

另外，例如设想将用户的演奏数值化、图形化而客观地显示的应用。在以上的应用中，评价提示部156将表示演奏数据A的波形和与上述演奏数据A相对应的评价数据B的推移作为图形而显示于输入输出部104。

此外，上述的步骤S610至步骤S650的推论显示处理可以与演奏数据A被输入至信息处理装置100并行地实时执行，也可以针对在信息处理装置100存储的演奏数据A事后执行。

如上所述，在本实施方式的信息处理系统S中，通过训练好的学习模型M适当地推论与在演奏数据A所包含的多个演奏片段分别对应的评价。信息处理装置100将推论出的每个演奏片段的评价提示给用户。其结果，用户能够预测自己所进行的演奏被观众怎样评价。

＜变形例＞

以上的实施方式可以实施各种变形。以下，例示出具体的变形方式。从以上的实施方式及以下的例示任意选择出的2个以上的方式可以在彼此不矛盾的范围适当进行合并。

在上述的实施方式，演奏数据A在时序上被分割为多个演奏片段，用于学习处理及推论处理。但是，演奏数据A也可以不被分割而与1个乐曲相对应。

关于上述的实施方式，可以将各种方法用于演奏数据A的分割。例如，多个演奏片段可以是将乐曲每隔规定时间进行了划分的多个表演区间，也可以是基于演奏数据A确定出的多个乐句。

上述的实施方式的评价数据B是表示针对由传送数据示出的演奏者的表演被视听者赋予的评价值的主观数据，但也可以将其他信息用作评价数据B。

例如，可以将与演奏者的表演相关联地由视听者投稿的投稿量所涉及的投稿数据用作评价数据B。投稿数据例如是与动画所包含的动画片段相关联的文本信息，包含于传送数据，针对每个演奏片段而统计投稿数。

此外，例如也可以将表示表演的观众的行为的反应数据用作评价数据B。反应数据是表示与表演的观众的动作相关的特征的信息。数据取得部252能够对传送数据所包含的音乐表演动画中的显示有观众的期间的影像(观众的影像)进行解析而取得反应数据。反应数据例如可以是时序性地取得了观众各自的骨格(骨架)的数据，也可以是表示观众整体的动作的大小的数据，也可以是表示各个观众的面部的表情的数据，还可以是表示由红外线相机等取得的观众的体温的数据。

在上述的实施方式，评价提示部156将评价数据B在视觉上提示给用户。也可以取代评价数据B的提示或在其基础上，由控制部150对针对演奏数据A所表示的动画的影像效果的候补进行提示，以提高推论出的评价。针对动画的影像效果例如是表示由多个相机拍摄动画的情况下的相机角度的切换定时、淡出(fade out)的开始/结束定时的信息。

在上述的实施方式，信息处理装置100使用从学习服务器200供给来的学习模型M而对评价进行推论。但是，评价的推论涉及的各处理也可以由构成信息处理系统S的任意装置执行。例如，学习服务器200也可以对从信息处理装置100供给来的演奏数据A进行前处理，将进行了前处理的演奏数据A作为输入数据而输入至在存储部260储存的学习模型M，由此对针对演奏数据A的评价进行推论。根据本变形例的结构，学习服务器200能够执行基于将演奏数据A作为输入数据的学习模型M的推论处理。其结果，减轻信息处理装置100的处理负荷。

另外，上述的实施方式的电子乐器100可以具有控制装置200的功能，控制装置200可以具有电子乐器100的功能。

此外，也可以通过将存储有由用于实现本发明的软件表示的各控制程序的存储介质读出至各装置，从而实现与本发明相同的效果，在这种情况下，从存储介质读出的程序代码本身实现本发明的新功能，存储有该程序代码的非暂时性的计算机可读取的记录介质构成本发明。另外，也可以通过传输介质等提供程序代码，在这种情况下，程序代码本身构成本发明。此外，作为上述情况的存储介质，除了ROM以外，还可以使用软盘、硬盘、光盘、光磁盘、CD-ROM、CD-R、DVD-ROM、DVD-R、磁带、非易失性的存储卡等。“非暂时性的计算机可读取的记录介质”还包含如成为经由互联网等网络、电话线路等通信线路而发送了程序的情况下的服务器、客户端的计算机系统内部的易失性存储器(例如DRAM(Dynamic RandomAccess Memory))那样将程序保存一定时间的介质。

以上，基于本发明的优选实施方式对本发明进行了详细说明，但本发明不受这些特定的实施方式限定，不脱离本发明的主旨的范围内的各种方式也包含于本发明。可以将上述的实施方式的一部分适当组合。

标号的说明

100信息处理装置，150控制部，160存储部，200学习服务器，250控制部，260存储部A演奏数据，B评价数据，DS传送服务器，EM电子乐器，M学习模型，S信息处理系统。

Claims

1.一种方法，其是通过计算机实现的，

取得学习模型，该学习模型对表示由演奏者进行的演奏的第1演奏数据和表示由接收到所述演奏的观众进行的评价的第1评价数据之间的关系进行了学习，

取得第2演奏数据，

使用所述学习模型，对所述第2演奏数据进行处理，对针对该第2演奏数据的评价进行推论，

输出表示推论结果的第2评价数据。

2.根据权利要求1所述的方法，其中，

所述第1演奏数据被分割为一系列的演奏片段，

所述第1评价数据包含与所述一系列的演奏片段的任意者相关联的多个评价片段。

3.根据权利要求2所述的方法，其中，

所述第1演奏数据包含表示演奏出的声音的声音数据、表示演奏中的演奏者的影像的影像数据、及表示演奏中的演奏者的演奏操作的操作数据中的1个以上。

4.根据权利要求3所述的方法，其中，

所述影像数据是表示所述演奏的所述演奏者的动作的特征的动作数据。

5.根据权利要求1至4中任一项所述的方法，其中，

所述第1评价数据包含表示针对所述演奏赋予的评价的主观数据、表示所述演奏的观众的反应的反应数据、及与针对所述演奏的投稿的量相关的投稿数据中的至少任一者。

6.根据权利要求1至5中任一项所述的方法，其中，

对针对由所述第2演奏数据表示的动画的影像效果的候补进行提示，以提高所述第2评价数据所表示的评价。

7.一种系统，其具有：

存储器，其存储程序；以及

1个以上的处理器，其执行所述程序，

所述1个以上的处理器执行在所述存储器存储的所述程序，由此，

取得第2演奏数据，

输出表示推论结果的第2评价数据。

8.根据权利要求7所述的系统，其中，

所述第1演奏数据被分割为一系列的演奏片段，

9.根据权利要求8所述的系统，其中，

10.根据权利要求9所述的系统，其中，

11.根据权利要求7至10中任一项所述的系统，其中，

12.根据权利要求7至11中任一项所述的系统，其中，

所述1个以上的处理器执行在所述存储器存储的所述程序，由此对针对由所述第2演奏数据表示的动画的影像效果的候补进行提示，以提高所述第2评价数据所表示的评价。

13.一种程序，其用于使计算机执行如下处理，

取得第2演奏数据，

输出表示推论结果的第2评价数据。