CN111630573A

CN111630573A - 信息处理方法

Info

Publication number: CN111630573A
Application number: CN201980008411.6A
Authority: CN
Inventors: 前泽阳; B.李
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2018-02-06
Filing date: 2019-02-05
Publication date: 2020-09-04
Anticipated expiration: 2039-02-05
Also published as: CN111630573B; JP6699677B2; US20200365126A1; WO2019156092A1; JP2019139295A; US11557269B2

Abstract

信息处理装置(11)包括：控制数据生成单元(23)，在学习了表示音符的时序的分析数据(X)和用于控制表示表演者的对象的动作的控制数据(Y)之间的关系的学习完毕模型中，通过输入处理对象的分析数据(X)，生成与该分析数据(X)相应的控制数据(Y)。

Description

信息处理方法

技术领域

本发明涉及用于控制表示演奏者等的表演者的对象的动作的信息处理方法、信息处理装置、以及信息处理程序。

背景技术

以往提出了将表示演奏者的图像即对象的动作根据乐曲的演奏数据来控制的技术(专利文献1、2和非专利文献1、2)。例如在专利文献1中，公开了根据演奏数据指定的音高，生成演奏该乐曲的演奏者的运动图像的技术。

现有技术文献

专利文献

专利文献1：日本特开2000－10560号公报

专利文献2：日本特开2010－134790号公报

非专利文献

非专利文献1：山本和樹ほか5名，"ピアノ演奏における自然な手指動作CGの自動生成"，TVRSJ Vol.15No.3p.495-502，2010

非专利文献2：釘本望美ほか5名，"モーションキャプチャを用いたピアノ演奏動作のCG表現と音楽演奏インタフェースへの応用"，社団法人情報処理学会研究報告，2007-MUS-72(15)，2007/10/12

发明内容

发明要解决的课题

在专利文献1的技术中，对各音符的音高和音量等的每个条件，表示对象的动作的演奏动作数据被存储在存储装置中。然后，从存储装置中检索与乐曲的演奏数据指定的各音符的条件对应的演奏动作数据，将其用于对象的动作的控制。但是，在演奏数据和演奏动作数据被固定地关联的结构中，有与演奏数据相应的对象的动作容易变得单调并且统一的问题。考虑到以上的情况，本发明的目的在于，生成用于使对象的动作根据演奏而多样地变化的控制数据。

用于解决课题的方案

为了解决以上的课题，本发明的优选方式的信息处理方法包括：获取表示音符的时序的分析数据的步骤；以及通过对学习了和用于控制表示表演者的虚拟对象的动作的控制数据之间的关系的学习完毕模型，输入处理对象的分析数据，生成与该分析数据相应的控制数据的步骤。

本发明的优选方式的信息处理装置包括：控制数据生成单元，通过在学习了表示音符的时序的分析数据和用于控制表示表演者的虚拟对象的动作的控制数据之间的关系的学习完毕模型中，输入处理对象的分析数据，生成与该分析数据相应的控制数据。

本发明的优选方式的信息处理程序，使计算机执行：获取表示音符的时序的分析数据的步骤；以及通过在学习了所述分析数据和用于控制表示表演者的虚拟对象的动作的控制数据之间的关系的学习完毕模型中，输入处理对象的分析数据，生成与该分析数据相应的控制数据的步骤。

附图说明

图1是例示本发明的实施方式的演奏系统的结构的框图。

图2是例示信息处理装置的功能性结构的框图。

图3是显示装置的显示画面的说明图。

图4是分析数据的说明图。

图5是控制数据的说明图。

图6是例示控制数据生成单元的结构的框图。

图7是例示第1统计模型的结构的框图。

图8是例示第2统计模型的结构的框图。

图9是教师数据的说明图。

图10是例示动作控制处理的流程图。

具体实施方式

以下，说明本发明的一实施方式的演奏系统。

＜1.演奏系统的概要＞

图1是例示本发明的优选方式的演奏系统100的结构的框图。演奏系统100是设置在演奏者P所在的音响厅等空间内的计算机系统。演奏者P例如是乐器的演奏者或乐曲的演唱者。演奏系统100与演奏者P的乐曲的演奏并行地执行该乐曲的自动演奏。

＜2.演奏系统的硬件结构＞

如图1中例示的，演奏系统100包括信息处理装置11、演奏装置12、拾音装置13和显示装置14。信息处理装置11是控制演奏系统100的各要素的计算机系统，例如由平板终端或个人计算机等的信息终端实现。

演奏装置12在信息处理装置11的控制下执行乐曲的自动演奏。具体地说，演奏装置12是包括驱动机构121和发声机构122的自动演奏乐器。例如，在自动演奏乐器是自动演奏钢琴的情况下，具有键盘和与键盘的各键对应的弦(发声体)。与自然乐器的键盘乐器同样，发声机构122对每个键包括与键盘的各键的位移联动而使弦发声的敲弦机构。驱动机构121通过驱动发声机构122执行对象乐曲的自动演奏。根据来自信息处理装置11的指示，通过驱动机构121驱动发声机构122而实现自动演奏。再者，也可以将信息处理装置11装载在演奏装置12上。

拾音装置13是将由演奏者P的演奏发声的音响(例如乐器声或歌声)拾音的话筒。拾音装置13生成表示音响的波形的音响信号A。再者，也可以利用从电弦乐器等的电乐器输出的音响信号A。因此，可省略拾音装置13。显示装置14在信息处理装置11的控制下显示各种图像。例如液晶表示板或投影机等各种显示器适合用作显示装置14。

如图1中例示的，信息处理装置11由包括控制装置111和存储装置112的计算机系统实现。控制装置111例如是包含CPU(Central Processing Unit；中央处理单元)、RAM、ROM等的处理电路，综合地控制构成演奏系统100的各要素(演奏装置12、拾音装置13和显示装置14)。控制装置111至少包含一个电路而构成。

存储装置(存储器)112例如由磁记录介质(硬盘驱动器)或半导体记录介质(固态驱动器)等公知的记录介质、或多种记录介质的组合构成，存储控制装置111执行的程序和控制装置111使用的各种数据。再者，也可以准备与演奏系统100分开的存储装置112(例如云存储)，通过移动通信网或互联网等通信网，控制装置111执行对存储装置112的写入和读出。即，也可以从演奏系统100中省略存储装置112。

本实施方式的存储装置112存储乐曲数据D。乐曲数据D例如是符合MIDI(MusicalInstrument Digital Interface；音乐设备数字接口)标准的格式文件(SMF：StandardMIDI File；标准MIDI文件)。乐曲数据D指定构成乐曲的音符的时序。具体地说，乐曲数据D是排列了指定音符并指定演奏的演奏数据E、以及指定各演奏数据E的读出时间点的时间数据的时序数据。演奏数据E例如指定音符的音高和强度。时间数据指定例如先后的演奏数据E的读出间隔。

＜3.演奏系统的软件结构＞

接着，说明信息处理装置11的软件结构。图2是例示信息处理装置11的功能性结构的框图。如图2中例示的，控制装置111通过根据存储装置112中存储的程序而执行多个任务，实现图2中例示的多个功能(演奏控制单元21、分析数据生成单元22、控制数据生成单元23和显示控制单元24)。再者，可以由多个装置的集合(即系统)实现控制装置111的功能，也可以由专用的电子电路(例如信号处理电路)实现控制装置111的一部分或全部功能。此外，位于与设置了演奏装置12、拾音装置13和显示装置14的音响厅等空间分离的位置的服务器装置也可以实现控制装置111的一部分或全部的功能。

＜3－1.演奏控制单元＞

演奏控制单元21是将乐曲数据D的各演奏数据E顺序地输出到演奏装置12的序列发生器。演奏装置12演奏以从演奏控制单元21顺序地供给的演奏数据E指定的音符。本实施方式的演奏控制单元21可变地控制对演奏装置12输出演奏数据E的定时，以使演奏装置12的自动演奏跟随演奏者P的实际演奏。演奏者P演奏乐曲的各音符的定时，因起因于该演奏者P有意的音乐性的表现等而动态地变化。因此，演奏控制单元21对演奏装置12输出演奏数据E的定时也是可变的。

具体地说，演奏控制单元21通过音响信号A的分析而估计在乐曲内演奏者P目前正在演奏的定时(以下称为“演奏定时”)。演奏定时的估计与演奏者P的实际演奏并行顺序地执行。在演奏定时的估计上，可任意地采用例如日本特开2015－79183号公报等的公知的音响分析技术(Score Alignment；得分对齐)。演奏控制单元21将各演奏数据E输出到演奏装置12，以使演奏装置12的自动演奏与演奏定时的进度同步。具体地说，每当演奏定时达到由乐曲数据D的各时间数据指定的定时，演奏控制单元21将与该时间数据对应的演奏数据E输出到演奏装置12。因此，演奏装置12的自动演奏的进度与演奏者P的实际演奏同步。即，好像演奏装置12和演奏者P相互协调并合奏的气氛被演出。

＜3－2.显示控制单元＞

如图3中例示的，显示控制单元24使表示虚拟的演奏者的图像(以下称为“演奏者对象(虚拟对象)”)Ob显示在显示装置14上。表示演奏者对象Ob演奏的键盘乐器的图像也和演奏者对象Ob一起显示在显示装置14上。图3中例示的演奏者对象Ob是表示含有演奏者的两臂部、胸部和头部的上半身的图像。显示控制单元24与演奏装置12的自动演奏并行并使演奏者对象Ob动态地变化。具体地说，显示控制单元24控制演奏者对象Ob，使得演奏者对象Ob执行与演奏装置12的自动演奏联动的演奏动作。例如，使演奏者对象Ob以自动演奏的节奏摆动身体，在自动演奏的音符的发声时演奏者对象Ob执行按键的动作。因此，视认显示装置14的显示图像的用户(例如演奏者P或观众)可感觉到演奏者对象Ob好像在演奏乐曲那样的感觉。图2的分析数据生成单元22和控制数据生成单元23是用于使演奏者对象Ob的动作与自动演奏联动的要素。

＜3－3.分析数据生成单元＞

分析数据生成单元22生成表示被自动演奏的各音符的时序的分析数据X。分析数据生成单元22顺序地获取演奏控制单元21输出的演奏数据E，从演奏数据E的时序生成分析数据X。与获取演奏控制单元21输出的演奏数据E并行，对时间轴上的多个单位期间(帧)的各个单位期间顺序地生成分析数据X。即，与演奏者P的实际演奏和演奏装置12的自动演奏并行，顺序地生成分析数据X。

图4是分析数据X的说明图。本实施方式的分析数据X包含K行N列的矩阵(以下称为“演奏矩阵”)Z(K、N为自然数)。演奏矩阵Z是表示演奏控制单元21顺序地输出的演奏数据E的时序的2值矩阵。演奏矩阵Z的横向方向相当于时间轴。演奏矩阵Z的任意的1列对应于N个(例如60个)单位期间之中的单位期间。此外，演奏矩阵Z的纵向方向相当于音高轴。演奏矩阵Z的任意的1行对应于K个(例如128个)音高之中的1个音高。演奏矩阵Z之中第k行第n列(k＝1～K，n＝1～N)的1个元素表示在与第n列对应的单位期间内对应于第k行的音高是否发声。具体地说，该音高发声的元素被设定为“1”，该音高不发声的元素被设定为“0”。

如图4中例示的，对于时间轴上的1个单位期间(以下称为“特定单位期间”，此外还相当于本发明的“规定的时刻”)U0生成的分析数据X，表示包含特定单位期间U0的分析期间Q内的音符的时序。时间轴上的多个单位期间的各个单位期间按时序的顺序被依次选择为特定单位期间U0。分析期间Q是由包含特定单位期间U0的N个单位期间构成的期间。即，演奏矩阵Z的第n列对应于构成分析期间Q的N个单位期间之中第n单位期间。具体地说，分析期间Q由1个特定单位期间U0(当前)、位于特定单位期间U0前方(过去)的期间U1(第1期间)、以及位于特定单位期间U0后方(未来)的期间U2(第2期间)构成。期间U1和期间U2各自为由多个单位期间构成的约1秒左右的期间。

对应于演奏矩阵Z之中期间U1内的各单位期间的元素，根据从演奏控制单元21已经获取的各演奏数据E而被设定为“1”或“0”。另一方面，对应于演奏矩阵Z之中期间U2内的各单位期间内的元素(即，对应于还未获取演奏数据E的未来的期间内的元素)，从特定单位期间U0以前的音符的时序和乐曲数据D被预测。就预测对应于期间U2内的各单位期间内的元素来说，可任意地采用公知的时序分析技术(例如线性预测或卡尔曼滤波器)。如从以上的说明理解的，分析数据X是包含在期间U1内演奏的音符的时序、以及基于该期间U1中的音符的时序被预测为在之后的期间U2内演奏的音符的时序的数据。

＜3－4.控制数据生成单元＞

图2的控制数据生成单元23从分析数据生成单元22生成的分析数据X生成用于控制演奏者对象Ob的动作的控制数据Y。对每个单位期间顺序地生成控制数据Y。具体地说，从任意的1个单位期间的分析数据X生成该单位期间的控制数据Y。与演奏控制单元21输出演奏数据E并行地生成控制数据Y。即，与演奏者P的实际演奏和演奏装置12的自动演奏并行地生成控制数据Y的时序。如以上例示的，在本实施方式中，在演奏装置12的自动演奏和控制数据Y的生成上利用共同的演奏数据E。因此，与在演奏装置12的自动演奏和控制数据Y的生成上利用单独的数据的结构比较，具有简化用于使对象执行与演奏装置12的自动演奏联动的动作的处理的优点。

图5是演奏者对象Ob和控制数据Y的说明图。如图5中例示的，演奏者对象Ob以多个控制点41和多个连接部42(链)表现骨骼。各控制点41是可在虚拟空间内移动的点，连接部42是将各连接部42相互地连接的直线。如从图3和图5理解的，连接部42和控制点41不仅被设定在直接参与乐器的演奏的两臂部，而且还被设定在演奏中摆动的胸部和头部中。通过使各控制点41移动，演奏者对象Ob的动作被控制。如以上说明的，在本实施方式中，除被设定在两臂部之外，在胸部和头部中也被设定控制点41，可以使演奏者对象Ob执行不仅通过两臂部演奏乐器的动作，还在演奏中执行包含使胸部和头部摆动的动作的自然的演奏动作。即，可以实现演奏者对象Ob作为虚拟的演奏者在自动演奏那样的演出。再者，控制点41和连接部42的位置或个数是任意的，不限定于以上的例示。

控制数据生成单元23生成的控制数据Y是表示坐标空间内的多个控制点41的各自位置的向量。如图5中例示的，本实施方式的控制数据Y表示在被设定了相互正交的Ax轴和Ay轴的二维坐标空间内的各控制点41的坐标。控制数据Y表示的各控制点41的坐标被归一化，使得对于多个控制点41的平均为0而方差为1。对于多个控制点41的各个控制点，排列了Ax轴上的坐标和Ay轴上的坐标的向量被作为控制数据Y利用。但是，控制数据Y的形式是任意的。以上例示的控制数据Y的时序表现演奏者对象Ob的动作(即，各控制点41和各连接部42的随时间的移动)。

＜3－5.控制数据Y的生成＞

如图6中例示的，本实施方式的控制数据生成单元23利用学习完毕模型(机械学习模型)M，从分析数据X生成控制数据Y。学习完毕模型M是学习了分析数据X和控制数据Y之间的关系的统计性的预测模型(典型地为神经网络)，输出对于分析数据X的输入的控制数据Y。如图6中例示的，本实施方式的学习完毕模型M是串联地连接第1统计模型Ma和第2统计模型Mb的结构。

第1统计模型Ma将分析数据X作为输入，将表示分析数据X的特征的特征向量F作为输出生成。例如适合于特征的提取的卷积神经网络(CNN：Convolutional Neural Network)被适合用作第1统计模型Ma。如图7中例示的，第1统计模型Ma是例如将第1层La1、第2层La2和完全连结层La3叠层的结构。第1层La1和第2层La2各自由卷积层和最大池化层构成。这样，被输出并生成像归纳分析数据X那样的、比分析数据X低维的特征向量F。通过生成这样的特征向量F，作为以下说明的第2统计模型Ma的输入，例如，即使在输入了含有微小偏移的音符(定时或音高(pitch)稍微变化的音符)的分析数据X的情况下，也可以在最终被输出的控制数据Y中，抑制上述控制点41的偏移。即，即使输入具有微小不同的演奏数据E的分析数据X，也可以抑制被生成的演奏者对象Ob的动作极大的变化。

第2统计模型Mb生成与特征向量F相应的控制数据Y。例如含有适合于时序数据的处理的长期短期存储(LSTM：Long Short Term Memory；长短期记忆)单元的递归型神经网络(RNN：Recurrent Neural Network)适合被用作第2统计模型Mb。具体地说，如图8中例示的，第2统计模型Mb是例如层叠了第1层Lb1、第2层Lb2和完全连结层Lb3的结构。第1层Lb1和第2层Lb2各自由长期短期存储单元构成。由此，如上述，在将压缩的低维的特征向量F作为输入时，可以生成表示演奏者对象Ob流畅的动作的控制数据Y。

如以上例示的，根据本实施方式，通过卷积神经网络和递归型神经网络的组合，可以生成与演奏数据E的时序相应的合适的控制数据Y。但是，学习完毕模型M的结构是任意的，不限定于以上的例示。

学习完毕模型M通过使控制装置111执行从分析数据X生成控制数据Y的运算的程序(例如构成人工智能软件的程序模块)和在该运算中所适用的多个系数C的组合来实现。多个系数C通过利用了许多教师数据T的机械学习(特别是深层学习)而被设定并被保持在存储装置112中。具体地说，规定第1统计模型Ma的多个系数C和规定第2统计模型Mb的多个系数C通过利用了多个教师数据T的机械学习而被统一地设定。

图9是教师数据T的说明图。如图9中例示的，多个教师数据T的每一个表示分析数据X和控制数据Y的组合。通过观察特定的演奏者(以下称为“样本演奏者”)实际地演奏与演奏者对象Ob虚拟地演奏的乐器同种的乐器的场面，收集机械学习用的多个教师数据T。具体地说，表示样本演奏者演奏的音符的时序的分析数据X被顺序地生成。此外，从拍摄了样本演奏者的演奏的样子的运动图像，确定样本演奏者的各控制点的位置，生成表示各控制点的位置的数据。因此，表示上述演奏者对象的二维坐标空间，基于拍摄了样本演奏者的摄像机角度而生成。因此，若摄像机角度改变则二维坐标空间的设定也改变。这样一来，通过使对于时间轴上的1个时间点生成的分析数据X和控制数据Y相互地对应而生成1个教师数据T。再者，也可以从多个样本演奏者收集教师数据T。

在机械学习中，例如，根据误差反传播法等，被设定学习完毕模型M的多个系数C，使得表示将教师数据T的分析数据X输入到临时性模型时所生成的控制数据Y与该教师数据T的控制数据Y(即正解)的差异的损失函数最小。例如，临时性模型生成的控制数据Y和教师数据T的控制数据Y之间的平均绝对误差适合作为损失函数。

再者，在仅使损失函数最小这样的条件中，并未保证各控制点41的间隔(即各连接部42的总长度)是固定的。因此，演奏者对象Ob的各连接部42有可能不自然地伸缩。于是，在本实施方式中，除使损失函数最小这样的条件之外，还在控制数据Y表示的各控制点41的间隔的时间性变化最小这样的条件下，使学习完毕模型M的多个系数C最佳。因此，可使演奏者对象Ob执行降低了各连接部42的伸缩的自然的动作。按以上说明的机械学习生成的学习完毕模型M，在从样本演奏者的演奏内容和演奏时的身体的动作之间的关系所提取的倾向下，输出对未知的分析数据X的统计上妥当的控制数据Y。此外，第1统计模型Ma被学习，使得为了使以上的关系在分析数据X和控制数据Y之间成立而提取最合适的特征向量F。

图2的显示控制单元24根据控制数据生成单元23在每个单位期间生成的控制数据Y，使演奏者对象Ob显示在显示装置14上。具体地说，演奏者对象Ob的状态在每个单位期间被更新，使得各控制点41位于以控制数据Y指定的坐标。通过在每个单位期间执行以上的控制，各控制点41随时间移动。即，演奏者对象Ob执行演奏动作。如从以上说明理解的，控制数据Y的时序规定演奏者对象Ob的动作。

＜4.演奏者对象的控制处理＞

图10是例示用于控制演奏者对象Ob的动作的处理(以下称为“动作控制处理”)的流程图。在时间轴上的每个单位期间内执行动作控制处理。若开始动作控制处理，则分析数据生成单元22生成包含特定单位期间U0和其前方及后方的期间(U1，U2)的分析期间Q内的音符的时序的分析数据X(S1)。控制数据生成单元23通过将分析数据生成单元22生成的分析数据X输入到学习完毕模型M而生成控制数据Y(S2)。显示控制单元24根据控制数据生成单元23生成的控制数据Y，更新演奏者对象Ob(S3)。分析数据X的生成(S1)、控制数据Y的生成(S2)和演奏者对象Ob的显示(S3)，与获取演奏数据E并行执行。

＜5.特征＞

如以上说明的，在本实施方式中，从包含特定单位期间U0和其前后的期间的分析期间Q内的分析数据X，与获取演奏数据E并行，生成用于控制演奏者对象Ob的动作的控制数据Y。即，控制数据Y由演奏已经完成的期间U1的演奏数据E和以此预测的未来的期间U2的演奏数据生成。因此，尽管乐曲内的各音符的发声的定时可变，但可以适当地控制演奏者对象Ob的动作。即，可以根据演奏者P的演奏的变动，可靠对应地进行演奏者对象Ob的动作的控制。例如，在演奏者P的演奏速度急剧地缓慢的情况下，通过使用以此预测的数据(期间U2的数据)，可以生成与演奏速度瞬时对应的演奏者对象Ob的动作。

此外，在乐器的演奏中，有演奏者的预备动作，之后立即演奏乐器。因此，只是仅将过去的演奏数据作为输入，无法生成反映了这样的预备动作的演奏者对象的动作。因此，如上述，通过未来的期间的演奏数据也作为输入，可以生成好像使演奏者对象Ob进行预备动作的控制数据Y。

此外，在本实施方式中，通过在学习完毕模型M中输入分析数据X而生成控制数据Y，所以在从机械学习中被利用的多个教师数据T所确定的倾向下，可以生成表示对未知的分析数据X的统计上妥当的动作的多样的控制数据Y。此外，表示多个控制点41的各个位置的坐标被归一化，所以还具有可以通过控制数据Y控制多样大小的演奏者对象Ob的动作的优点。即，在二维坐标空间内，即使演奏者对象例如在教师数据中的样本演奏者的各控制点的位置上有偏差，或者多个样本演奏者的体格差较大的情况下，也可以进行平均的动作。

＜6.变形例＞

以下例示对以上例示的各方式附加的具体的变形方式。也可以将从以下的例示中任意地选择出的2个以上的方式在相互无矛盾的范围内适当地合并。

(1)在前述的实施方式中，作为演奏矩阵Z例示了表示分析期间Q内的音符的时序的2值矩阵，但演奏矩阵Z不限定于以上的例示。例如，也可以生成表示分析期间Q内的音符的演奏强度(音量)的演奏矩阵Z。具体地说，演奏矩阵Z之中第k行第n列的1个元素表示在与第n列对应的单位期间内对应于第k行的音高被演奏的强度。根据以上的结构，各音符的演奏强度被反映在控制数据Y中，所以可以根据演奏强度的强弱，对演奏者对象Ob的动作赋予演奏者的动作不同的倾向。

(2)在前述的实施方式中，将第1统计模型Ma生成的特征向量F输入到第2统计模型Mb中，但也可以在第1统计模型Ma生成的特征向量F中附加了其他要素后输入到第2统计模型Mb中。例如，也可以在将表示演奏者P的乐曲的演奏时间点(例如距小节线的距离)、演奏速度、乐曲的拍子的信息、或演奏强度(例如强度值或强度记号)附加在特征向量F中后，输入到第2统计模型Mb中。

(3)在前述的实施方式中，将用于演奏装置12的控制的演奏数据E也转用于演奏者对象Ob的控制，但也可以省略利用了演奏数据E的演奏装置12的控制。此外，演奏数据E不限定于符合MIDI标准的数据。例如，也可以将拾音装置13输出的音响信号A的频谱用作演奏数据E。演奏数据E的时序相当于音响信号A的频谱图。音响信号A的频谱的峰值从在与乐器发声的音符的音高对应的频带中被观察到，所以相当于表示音符的发声的数据。如从以上的说明理解的，演奏数据E被综合性地表现为表示音符的发声的数据。

(4)在前述的实施方式中，例示了表示演奏作为自动演奏的对象的乐曲的演奏者的演奏者对象Ob，但根据控制数据Y而被控制动作的对象的方式不限定于以上的例示。例如，也可以将表示与演奏装置12的自动演奏联动实施舞蹈的舞蹈者的对象显示在显示装置14上。具体地说，从拍摄与乐曲配合舞蹈的舞蹈者的运动图像确定控制点的位置，表示各控制点的位置的数据被用作教师数据T的控制数据Y。因此，学习完毕模型M学习从演奏的音符和舞蹈者的身体的动作之间的关系提取的倾向。如从以上的说明理解的，控制数据Y被综合性地表现为用于控制表示表演者(例如演奏者或舞蹈者)的对象的动作的数据。

(5)前述方式的信息处理装置11的功能，通过计算机(例如控制装置111)和程序的协同而实现。前述实施方式的程序以存储在计算机可读取的记录介质中的方式提供并被安装在计算机上。记录介质例如是非暂时性(non-transitory)的记录介质，CD-ROM等光学式记录介质(光盘)是好例子，但包含半导体记录介质或磁记录介质等公知的任意的形式的记录介质。再者，非暂时性的记录介质包含除暂时性的传播信号(transitory,propagatingsignal)以外的任意的记录介质，不排除易失性的记录介质。此外，也可以按通过通信网的分发的形式，将程序提供给计算机。

(6)用于实现学习完毕模型M的人工智能软件的执行主体不限定于CPU。例如，张量处理单元(Tensor Processing Unit)和神经引擎(Neural Engine)等的神经网络用的处理电路、或专用于人工智能的DSP(Digital Signal Processor；数字信号处理器)也可以执行人工智能软件。此外，从以上的例示中选择出的多种处理电路协同，也可以执行人工智能软件。

(7)在上述实施方式中，作为控制数据生成单元23的学习完毕模型M，使用基于机械学习的2个统计模型Ma、Mb，但也可以用1个模型实现学习完毕模型M。此外，除了上述神经网络以外，可以使用由支持向量机、自组织图、或通过强化学习进行学习的学习器构成的学习器。

(8)在上述实施方式中，除了显示数据生成单元23之外，信息处理装置11还具有演奏控制单元21、分析数据生成单元22、以及显示控制单元24，但在本发明的信息处理方法以及信息处理装置中，演奏控制单元21、分析数据生成单元22、以及显示控制单元24不是必需的，至少具有控制数据生成单元23就可以，只要可以从分析数据X生成控制数据Y即可。因此，例如，也可以从演奏数据E等预先生成分析数据X，以此通过显示数据生成单元23生成控制数据Y。

(9)分析数据X可为各种各样的方式。在上述实施方式中，使用包含了从一部分演奏数据E中提取的过去的期间U1的音符的时序和以此预测的未来的期间U2的音符的时序的分析数据，但不限定于此。例如，可以不包含未来的期间的音符的时序，而从演奏数据E之中的规定的期间(帧)生成分析数据X。或者，也可以生成含有与演奏数据E的全部期间对应的音符的时序的分析数据X。

＜附注＞

从以上例示的方式，例如掌握以下的结构。

本发明的优选方式(第1方式)的信息处理方法，通过在学习了表示音符的时序的分析数据和用于控制表示表演者的对象的动作的控制数据之间的关系的学习完毕模型中，输入处理对象的分析数据，生成与该分析数据相应的控制数据。在以上的方式中，通过在学习完毕模型中输入分析数据而生成控制数据，所以在由被用于机械学习的多个教师数据所确定的倾向下，可以生成表示对未知的分析数据的妥当的动作的多样的控制数据。

在第1方式的优选例子(第2方式)中，所述学习完毕模型包含生成表示所述分析数据的特征的特征向量的卷积神经网络、以及由长期短期存储单元生成与所述特征向量相应的控制数据的递归型神经网络。在以上的方式中，学习完毕模型包含卷积神经网络和递归型神经网络的组合，所以可以生成与演奏数据相应的合适的控制数据。

在第1方式或第2方式的优选例子(第3方式)中，被用于生成单位期间内控制数据的分析数据表示包含该单位期间和该单位期间的前方及后方的期间的分析期间内的音符的时序。在以上的方式中，单位期间的分析数据表示包含该单位期间和其前后的期间的分析期间内的音符的时序，所以可以生成表示对单位期间加入了过去的音符和未来的音符的适当动作的控制数据。

在第1方式至第3方式的任一优选例子(第4方式)中，所述控制数据表示用于表示规定所述对象的多个控制点的各个位置的被归一化后的坐标。在以上的实施方式中，表示对象的多个控制点的各个位置的坐标被归一化，所以具有可以根据控制数据控制多样大小的对象的动作的优点。

标号说明

100…演奏系统、11…信息处理装置、111…控制装置、112…存储装置、12…演奏装置、121…驱动机构、122…发声机构、13…拾音装置、14…显示装置、21…演奏控制单元、22…分析数据生成单元、23…控制数据生成单元、24…显示控制单元、41…控制点、42…连接部、M…学习完毕模型、Ma…第1统计模型、Mb…第2统计模型。

Claims

1.一种信息处理方法，包括：

获取表示音符的时序的分析数据的步骤；以及

通过对学习了所述分析数据和用于控制表示表演者的虚拟对象的动作的控制数据之间的关系的学习完毕模型，输入处理对象的分析数据，生成与该分析数据相应的控制数据的步骤。

2.如权利要求1所述的信息处理方法，

被设定含有规定的时刻、所述时刻之前的第1期间、以及所述时刻之后的第2期间的分析期间，

所述分析数据包含：包含在所述第1期间内的音符的时序；以及根据所述第1期间的音符的时序预测的包含在所述第2期间内的音符的时序。

3.如权利要求1或权利要求2所述的信息处理方法，

所述学习完毕模型包括：

将所述分析数据作为输入，生成表示所述分析数据的特征的特征向量的卷积神经网络；以及

生成与所述特征向量相应的控制数据的递归型神经网络。

4.如权利要求3所述的信息处理方法，

所述递归型神经网络包含至少一个长期短期存储单元。

5.如权利要求1至权利要求4的任意一项所述的信息处理方法，

所述控制数据包含表示用于规定所述虚拟对象的多个控制点的各个位置的、被归一化后的坐标。

6.一种信息处理装置，包括：

控制数据生成单元，通过对学习了表示音符的时序的分析数据和用于控制表示表演者的虚拟对象的动作的控制数据之间的关系的学习完毕模型，输入处理对象的分析数据，生成与该分析数据相应的控制数据。

7.如权利要求6所述的信息处理装置，

8.如权利要求6或权利要求7所述的信息处理装置，

所述学习完毕模型包括：

生成与所述特征向量相应的控制数据的递归型神经网络。

9.如权利要求8所述的信息处理装置，

所述递归型神经网络包含至少一个长期短期存储单元。

10.如权利要求6至权利要求9的任意一项所述的信息处理装置，

11.一种信息处理程序，

使计算机执行：

获取表示音符的时序的分析数据的步骤；以及