CN117043849A

CN117043849A - 信息处理装置及其控制方法

Info

Publication number: CN117043849A
Application number: CN202280018508.7A
Authority: CN
Inventors: 须见康平; 浅野贵裕; 大崎郁弥
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2021-03-04
Filing date: 2022-02-18
Publication date: 2023-11-10
Also published as: US20230419932A1; WO2022185946A1; JP2022135126A

Abstract

信息处理装置(100)具备：作为触摸面板显示器而一体地构成的操作单元(105)以及显示单元(108)，用户输入包含形容词的自然语言；以及估计单元(203)，是由GPU(102)执行的功能，使用根据形容词输出音色数据的学习完毕模型，基于用户输入的自然语言而输出音色数据。

Description

信息处理装置及其控制方法

技术领域

本发明涉及基于音色数据进行输出的音色的调整的信息处理装置及其控制方法。

背景技术

以往，已知能够输出使用由波形数据以及效果参数构成的音色数据调整后的音色的合成器。

例如，在专利文献1中公开了一种音乐演奏装置，在输入单元与进行音高和音色的两轴显示的显示单元接触的情况下，以对应于与显示单元接触的输入单元的坐标位置的音高和音色来输出声音。

此外，例如在专利文献2中公开了一种音色设定系统，能够基于用户的实际的演奏自动地进行符合用户的心情或感情等心理状态的音色设定。

现有技术文献

专利文献

专利文献1：日本特开2007-156109号公报

专利文献2：日本特开2006-30414号公报

发明内容

发明要解决的课题

但是，即使使用专利文献1、2的技术，也难以操作在以往的合成器中设置的多个按钮或旋钮，找出初学者想要在演奏中使用的乐器种类的波形数据，或利用效果参数调整音色。

鉴于以上情况，本公开的目的在于提供一种即使是初学者也能够容易地调整输出的音色的信息处理装置及其控制方法。

用于解决课题的手段

为了实现上述目的，本公开的一方式所涉及的信息处理装置具备：输入模块，用户输入包含形容词的自然语言；以及音色估计模块，使用根据形容词输出音色数据的学习完毕模型，基于所述用户输入的自然语言输出音色数据。

此外，本公开的一方式所涉及的、由计算机实现的控制方法，取得用户输入的包含形容词的自然语言；以及使用根据形容词输出音色数据的学习完毕模型，基于所述用户输入的自然语言输出音色数据。

根据本发明，即使是初学者也能够容易地调整输出的音色。

附图说明

图1是示出本公开的实施方式所涉及的信息处理装置的硬件结构的框图。

图2是示出信息处理装置的软件结构的框图。

图3是示出将收集到的训练数据中包含的各效果参数映射到潜在空间上的状态的图。

图4是示出本公开的实施方式中的学习模型的训练处理的流程图。

图5是示出本公开的实施方式中的音色数据的估计处理的流程图。

图6是示出在图1中的显示单元上显示的图2中的输入单元以及输出单元的UI的例子的图。

具体实施方式

下面，参照附图对本公开的实施方式详细地进行说明。以下说明的各实施方式只不过是能够实现本公开的结构的一例。以下各实施方式能够根据应用本公开的装置的结构、各种条件适当地修正或变更。此外，以下各实施方式中包含的所有要素的组合对于实现本公开不一定是必需的，能够适当地省略要素的一部分。因此，本公开的范围不限定于以下各实施方式所记载的结构。此外，只要不相互矛盾，也可以采用组合了实施方式内记载的多个结构的结构。

本实施方式所涉及的信息处理装置100由合成器实现，但不限于此。例如，信息处理装置100也可以是向外部的合成器发送应设定的音色数据的个人计算机、服务器等信息处理装置(计算机)。

这里，本实施方式中的音色数据是包含钢琴、风琴、吉他等各种乐器的波形数据、以及合唱(Chorus)、混响、失真等效果参数的至少一者的数据。

概略地说，本实施方式中的信息处理装置100基于用户为了由信息处理装置100进行演奏而调整其音色时用户输入的自然语言，来设定用于音色调整的音色数据的候选，以能够播放样本音色的状态列表显示各候选。然后，如果用户选择列表显示的候选中的、所播放的样本音色是想要在演奏中使用的音色的候选，则信息处理装置100进行音色调整，以使该样本音色成为由信息处理装置100进行演奏时的音色。

图1是示出本公开的实施方式所涉及的信息处理装置100的硬件结构的框图。

如图1所示，本实施方式的信息处理装置100具备CPU101、GPU102、ROM103、RAM104、操作单元105、麦克风106、扬声器107、显示单元108、HDD109，它们经由总线110相互连接。此外，虽然在图1中未示出，但信息处理装置100具备能够由用户进行演奏的键盘。

CPU101是一个或多个处理器，该一个或多个处理器例如根据存储在ROM103中的程序，使用RAM104作为工作存储器来控制信息处理装置100的各单元。

GPU102能够通过数据的并行处理来进行有效的运算，因此由GPU102如以下后述的那样进行使用学习模型进行学习的处理。

RAM104是易失性存储器，用作CPU101的主存储器、工作区域等临时存储区域。

麦克风106将收集到的声音转换为电信号(声音数据)并提供给CPU101。例如，麦克风106收集由用户向麦克风106说出的自然语言构成的声音，并将对其进行转换后的声音数据提供给CPU10。

扬声器107在使用了信息处理装置100的演奏时，在执行后述的图4的步骤S402时、以及在执行后述的图5的步骤S509时等，发出进行了音色调整的音色的声音。

HDD109是非易失性存储器，音色数据、其他数据、用于CPU101的动作的各种程序等分别存储在规定的区域中。另外，HDD109只要是能够存储上述的数据、程序的非易失性存储器即可，例如也可以是闪存等其他存储器。

操作单元105以及显示单元108作为接受用户对信息处理装置100的操作并显示各种信息的触摸面板显示器而一体地构成。但是，操作单元105以及显示单元108也可以是分别独立的用户界面，例如，操作单元105由键盘或鼠标构成，显示单元108由显示器构成。

总线110是将上述的信息处理装置100的硬件要素相互连接的信号传输路径。

图2是示出信息处理装置100的功能结构的框图。

在图2中，信息处理装置100具备学习单元201、输入单元202、估计单元203、以及输出单元204。

输入单元(输入模块)202是将用户输入的形容词输出到估计单元203的、由CPU101执行的功能。

具体而言，输入单元202在显示单元108上显示I/F601(图6)，并取得由用户使用操作单元105向I/F601进行了文字输入的自然语言。然后，输入单元202进行所取得的自然语言的词素分析，提取用户输入的形容词，并将提取的该形容词输出到估计单元203。

另外，输入单元202只要能够取得用户输入的形容词，则不限定于本实施方式。例如，既可以基于由麦克风106收集的用户说出的自然语言来取得用户输入的形容词，也可以在显示单元108上显示包含多个形容词的标记(tag)的I/F602(图6)，并取得用户使用操作单元105选择的标记的形容词作为用户输入的形容词。

输入单元202的处理的详细情况使用图4在后面进行叙述。

学习单元201是由学习模型构成的、由GPU102执行的功能，该学习模型由作为神经网络的一种的条件变分自编码器(CVAE(conditional variational auto encoder))构成。GPU102使用由效果参数以及对其进行了标记的形容词构成的训练数据，通过有教师学习来训练构成学习单元201的学习模型，并将所生成的学习完毕模型的后述的解码器的参数输出到估计单元203。

构成学习单元201的学习模型具有编码器(encoder)以及解码器(decoder)。这里，编码器是指如下的神经网络：如果输入标记了形容词(标签y)的效果参数(输入数据x)作为训练数据，则从训练数据提取潜在空间中的、标记了形容词(标签y)的潜在变量z。此外，解码器是指如下的神经网络：如果输入标记了形容词(标签y)的潜在变量z，则重构标记了形容词(标签y)的效果参数(输出数据x’)。GPU102将输入数据x和输出数据x’进行比较，并调整构成学习单元201的编码器以及解码器的参数。此外，调整编码器的参数，以使按每个标签y形成图3所示的潜在空间中的基于潜在变量z的簇。GPU102反复进行相关处理，通过优化构成学习单元201的学习模型的参数来训练学习模型并生成学习完毕模型。基于GPU102的学习模型的训练处理的详细情况使用图4在后面进行叙述。

估计单元(音色估计模块)203是与在学习单元201中生成的学习完毕模型的解码器相同的神经网络(以下简称为解码器)，并且是由GPU102执行的功能。

如果从学习单元201向估计单元203输出参数，则GPU102使用该参数更新构成估计单元203的解码器的参数。

此外，如果从输入单元202向估计单元203输出用户输入的形容词，则GPU102取得图3所示的潜在空间中的潜在变量z中的、标记了该形容词的潜在变量z，并将其输入到构成估计单元203的解码器，由此重构(估计)标记了该形容词的效果参数(音色数据)。然后，GPU102将所重构的效果参数输出到输出单元204。基于GPU102的音色数据的估计处理的详细情况使用图5在后面进行叙述。

另外，在学习单元201以及估计单元203中使用的神经网络没有特别限定，可以例示DNN、RNN/LSTM、循环神经网络(Recurrent Neural Network)、CNN(卷积神经网络(Convolutional Neural Network))。此外，也可以使用其他模型、例如HMM(隐马尔可夫模型(hidden Markov model))、SVM(支持向量机(support vector machine))来代替神经网络。

此外，学习单元201为了进行有教师学习而仅由CVAE构成，但也可以是包含VAE(变分自编码器(variational auto encoder))、GAN(生成对抗网络(Generative AdversarialNetworks))的结构。在这种情况下，在学习单元201中，执行利用VAE、GAN的无教师学习、即将使用了将未标记形容词的效果参数作为训练数据的簇的学习与基于CVAE的有教师学习组合的半有教师学习。

此外，学习单元201以及估计单元203也可以是一个装置(系统)。

进一步地，学习单元201以及估计单元203在本实施方式中由作为单个处理器的GPU102执行，但也可以由多个处理器构成GPU102来进行分布式处理。此外，不仅是GPU102，也可以是与CPU101协作执行的功能。

输出单元(提示模块)204是列表显示(提示)从估计单元203输出的多个效果参数作为用户使用信息处理装置100进行演奏时的音色调整中使用的效果参数的候选的、由CPU101执行的功能。

具体而言，输出单元204在显示单元108上显示包含与成为候选的各效果参数相关联的多个标签的I/F603(图6)。如图6所示，在I/F603的各标签设置有与根据各效果参数进行了音色调整的情况下的样本声音相关联的播放按钮。然后，如果用户按下处于I/F603中的播放按钮之一，则输出单元204在将设置有该播放按钮的标签作为用户选择的状态的基础上，播放与该播放按钮相关联的样本音色。用户在按下I/F603中显示的各播放按钮、播放了自身所希望的样本音色时，按下确定按钮604。如果按下确定按钮604，则输出单元204确定将与当前用户选择中的标签相关联的效果参数用于信息处理装置100的音色调整。

输出单元204的处理的详细情况使用图5在后面进行叙述。

如果由GPU102在学习单元201中生成学习完毕模型，则效果参数(输入数据x)在潜在空间中被映射为潜在变量z。许多该潜在变量z被包含在按每个标签(label)y形成的簇的一个中。在本实施方式中，如图3所示，在潜在空间中形成有作为标记于输入数据x的标签y之一的形容词“美妙的”的簇301、同样作为标签y之一的形容词“华丽的”的簇302等。

另外，在本实施方式中，对向学习单元201的输入数据x仅为效果参数的情况进行了说明，但只要是音色数据，则不限定于此。例如，也可以将向学习单元201的输入数据x作为由仅波形数据、波形数据与效果参数的组合、以及包含多个音色数据的音色数据集中的任意一个构成的音色数据。

图4是示出本实施方式中的学习模型的训练处理的流程图。

本处理由CPU101读出存储在ROM103中的程序，并将RAM104用作工作存储器来执行。

首先，在步骤S401中，CPU101从HDD109取得效果参数。另外，也可以经由图1中未示出的通信单元从外部取得效果参数。

在步骤S402中，CPU101针对在步骤S401中收集到的效果参数的每一个，取得所标记的形容词。

这里，所标记的形容词具体以如下方式取得。

首先，CPU101使用收集到的各效果参数，对作为默认的波形数据的钢琴的波形数据进行音色调整，使扬声器107发出该音色的声音，并且使显示单元108显示I/F601(图6)。

然后，如果CPU101检测到用户使用操作单元105向I/F601文字输入了根据从扬声器107发出声音的音色而想起的形容词，则取得进行了该文字输入的形容词作为所标记的形容词。这里，所取得的形容词可以是单数，也可以是复数。

另外，由于通过以上的方法取得所标记的形容词，因此鉴于申请时的技术常识，推测训练数据中包含的音色数据和对其进行了标记的形容词之间的相关关系。

在步骤S403中，CPU101将在步骤S402中取得的形容词标记于在步骤S401中取得的效果参数，并生成为训练数据。另外，由上述效果参数和对其进行标记的形容词构成的数据集也可以利用众包(Crowdsourcing)获得。

在步骤S404中，CPU101通过将在步骤S403中生成的训练数据输入到学习单元201，使GPU102进行构成学习单元201的学习模型的学习，并生成学习完毕模型。然后，GPU102在将学习完毕模型的解码器的参数从学习单元201输出到估计单元203，并更新构成估计单元203的解码器的参数之后，结束本处理。

另外，在本实施方式中，在步骤S402中使扬声器107发出声音的音色是对钢琴的波形数据进行了音色调整的音色，但也可以进行多个乐器种类的波形数据的音色调整。在这种情况下，在步骤S402中，针对相同的效果参数，按每个乐器种类取得所标记的形容词。此外，在步骤S404中，按每个乐器种类生成学习完毕模型。

接着，参照图5对在图4的处理后执行的本实施方式中的音色数据的估计处理进行说明。

图5是示出本实施方式中的音色数据的估计处理的流程图。

首先，在步骤S501中，CPU101使显示单元108显示I/F601，取得用户使用操作单元105向I/F601进行了文字输入的自然语言。然后，对所取得的自然语言进行任意的词素分析，并提取用户输入的形容词。

例如，在向I/F601进行了“美妙的钢琴的声音”这样的自然语言的文字输入的情况下，通过进行了文字输入的自然语言的词素分析，取得“美妙的”、“钢琴”和“声音”这三个单词，从其中提取“美妙的”这样的单词作为用户输入的形容词。

此外，在向I/F601进行了“华丽的、美妙的钢琴的声音”这样的自然语言的文字输入的情况下，提取“华丽的”以及“美妙的”这两个单词作为用户输入的形容词。

另外，在步骤S501中，只要能够取得用户输入的形容词，则不限于本实施方式的方法。例如，代替显示I/F601，也可以显示将在步骤S402的处理中取得的多个形容词显示为用户可选择的标记的I/F602，并取得在用户选择的标记中显示的形容词作为用户输入的形容词。此外，代替显示I/F601，也可以使用任意的语音识别技术，将包含用户通过麦克风106说出的自然语言的声音数据转换为文本数据，对该文本数据进行任意的词素分析，提取用户输入的形容词。

接着，在步骤S502中，CPU101从潜在空间取得标记了在步骤S501中提取的形容词的潜在变量，并将标记了该形容词的潜在变量输入到构成估计单元203的解码器。由此，使GPU102从构成估计单元203的解码器输出标记了该形容词的效果参数。另外，在存在多个在步骤S501中提取的形容词的情况下，所有的形容词被输入到构成估计单元203的解码器。

例如，在步骤S501中提取了形容词“美妙的”的情况下，从估计单元203输出形成图3所示的簇301的潜在变量z等、由在潜在空间中标记了形容词“美妙的”的潜在变量z重构的标记了形容词“美妙的”的效果参数。

此外，例如，在步骤S501中提取了形容词“美妙的”以及形容词“华丽的”的情况下，从估计单元203输出形成图3所示的簇301的潜在变量z等、由在潜在空间中标记了该两个形容词的潜在变量z重构的标记了该两个形容词的效果参数。

另外，在步骤S404中，在按每个乐器种类生成学习完毕模型，并且在步骤S501中不仅提取形容词还提取乐器种类的情况下，在步骤S501中提取的形容词被输入到估计单元203中的该提取的乐器种类的解码器。

在步骤S503中，CPU101从在步骤S502中输出的多个效果参数中，设定用户在音色调整中使用的效果参数的候选。在本实施方式中，从在步骤S502中输出的多个效果参数中随机指定的效果参数被设定为用户用于音色调整的效果参数的候选。另外，也可以将在步骤S502中输出的多个效果参数中的其似然度为阈值以上的效果参数设定为用户用于音色调整的效果参数的候选。

在步骤S504中，CPU101判别是否存在乐器种类的用户输入。具体而言，如果在通过步骤S501中的任意的词素分析取得的单词中存在乐器种类，则判别为存在乐器种类的用户输入。

例如，在步骤S501中，在向I/F601进行了“美妙的钢琴的声音”这样的自然语言的文字输入的情况下，在步骤S504中，CPU101判别为存在乐器种类“钢琴”的用户输入。

在存在乐器种类的用户输入的情况下(在步骤S504中为是(YES))，前进至步骤S505，CPU101从HDD109取得用户输入的乐器种类的波形数据，并前进至步骤S507。

另外，在这种情况下，CPU101根据用户输入的乐器种类，进一步限制在步骤S503中设定的候选(取舍选择)。例如，在用户输入的乐器种类为“钢琴”的情况下，通常在音色调整中不使用“失真”，因此在所设定的候选中包含“失真”的情况下，将其从候选中排除。

另一方面，在不存在乐器种类的用户输入的情况下(在步骤S504中为否(NO))，前进至步骤S506，CPU101从HDD109取得默认设定的乐器种类“钢琴”的波形数据，并前进至步骤S507。另外，默认设定的乐器种类的波形数据不限于本实施方式，也可以是风琴、吉他等其他乐器种类的波形数据。此外，在步骤S506中，CPU101也可以使显示单元108显示分别记载了多个乐器种类的多个标记，从HDD109取得用户选择的标记所显示的乐器种类的波形数据。

在步骤S507中，CPU101使显示单元108列表显示在步骤S503中设定的效果参数的候选。具体而言，如图6的I/F603所示，将在步骤S503中设定的效果参数的候选分别显示为“音色1”标签(tab)、“音色2”标签、···这样的用户可选择的标签。此外，在各个标签设置有播放按钮。

在步骤S508中，CPU101判别是否具有在步骤S503中设定的效果参数的候选之一的播放指示。具体而言，判别设置在I/F603的各标签上的播放按钮的任意一个是否被按下。在具有候选之一的播放指示的情况下(在步骤S508中为是(YES))，前进至步骤S509。

在步骤S509中，CPU101在显示单元108上使播放按钮被按下的标签的颜色(或者该播放按钮的部分)反转，将该标签成为用户选择的状态的情况通知给用户，并使用具有播放指示的候选的效果参数和在步骤S505、S506中的任意一个中取得的波形数据来调整音色，作为样本音色使扬声器107发出声音(播放)。

在步骤S510中，CPU101判别具有播放指示的候选是否被用户选择为在音色调整中使用的效果参数。具体而言，在步骤S508中通过扬声器107发出样本音色的声音之后，在I/F603中，在未按下其他播放按钮而按下了确定按钮604的情况下，判别为具有播放指示的候选被用户选择为在音色调整中使用的效果参数。

即，在未按下确定按钮604而具有其他候选之一的播放指示的情况下(在步骤S510中为否(NO)，在步骤S508中为是(YES))，反复进行步骤S509以后的处理。另一方面，在没有进行其他候选之一的播放指示而按下了确定按钮604的情况下(在步骤S510中为是(YES))，CPU101在进行音色调整以使播放的样本音色成为由信息处理装置100进行演奏时的音色之后，前进至步骤S511。

在步骤S511中，CPU101基于在步骤S501中提取的形容词以及在步骤S510中用户选择的音色调整中使用的效果参数，使GPU102进行由学习单元201生成的学习完毕模型的追加学习。然后，在通过追加学习后的学习完毕模型的解码器部分的参数来更新构成估计单元203的解码器的参数之后，结束本处理。由此，在用户由信息处理装置100进行演奏时，越是通过图5的处理进行音色调整，越是在I/F603中列表显示进一步所定制的效果参数的候选。

根据本实施方式，如果用户将表示想要在信息处理装置100的演奏中使用的音色的自然语言在显示单元108上的I/F601进行文字输入，则CPU101基于进行了该文字输入的自然语言来设定用户在音色调整中使用的效果参数的候选，并在I/F603中显示用于播放各个候选的样本音色的播放按钮。用户按下在I/F603中显示的播放按钮来播放样本音色，在确认为该样本音色是想要在信息处理装置100的演奏中使用的音色的情况下，仅通过按下确定按钮604，就能够调整使用信息处理装置100进行演奏时的音色。即，即使在用户作为初学者，难以操作在以往的合成器中设置的多个按钮或旋钮来调整想要在信息处理装置100的演奏中使用的效果参数的情况下，也能够容易地调整使用信息处理装置100进行演奏时的音色。

此外，不操作在以往的合成器中设置的多个按钮或旋钮，就能够简便地设定在由信息处理装置100进行演奏时的乐器种类的波形数据。

另外，在步骤S511进行的追加学习的方法没有特别限定。例如，既可以基于用户在图5的处理中使用I/F603进行取舍选择的内容来更新在步骤S403中生成的训练数据，也可以进行将在步骤S510中用户选择的情况作为回报而提供的强化学习。

在本实施方式中，信息处理装置100进行图4、图5的所有处理，但并不限定于上述结构。例如，信息处理装置100可以连接到平板电脑或智能手机等移动终端(未示出)、服务器(云)(未示出)，与它们协调动作，即，也可以分担每个装置的处理，并且可以在任何地方进行处理。例如，也可以在云中生成学习完毕模型，并在移动终端上显示图6的I/F601。

通过任意的机器学习方法，能够进行学习单元201中的学习模型的训练以及学习完毕模型的追加学习。例如，能够采用作为高斯过程回归(贝叶斯优化)、对策迭代法的一种的对策梯度法、作为模仿生物进化的过程的方法的遗传算法等方法。

另外，也可以通过将存储有由用于实现本公开的软件表示的各控制程序的存储介质读出到各装置来实现相同的效果，在这种情况下，从存储介质读出的程序代码本身实现本公开的新功能，并且存储有该程序代码的非临时性计算机可读取的记录介质构成本公开。此外，可以经由传输介质等提供程序代码，在这种情况下，程序代码本身构成本公开。另外，作为这些情况下的存储介质，除了ROM之外，能够使用软盘、硬盘、光盘、光磁盘、CD-ROM、CD-R、磁带、非易失性存储卡等。“非临时性的计算机可读取的记录介质”还包括经由因特网等网络、电话线路等通信线路发送程序的情况下的成为服务器或客户端的计算机系统内部的易失性存储器(例如动态随机存取存储器(DRAM(Dynamic Random Access Memory)))那样、在一定时间内保持程序的记录介质。

本申请基于2021年3月4日申请的日本申请(特愿2021-034735)，其内容作为参照并入本文。

工业实用性

根据本公开的信息处理装置及其控制方法，即使是初学者也能够容易地调整输出的音色。

附图标记说明

100信息处理装置

101CPU

102GPU

105操作单元

107扬声器

108显示单元

109HDD

201学习单元

202输入单元

203估计单元

204输出单元

Claims

1.一种信息处理装置，具备：

输入模块，用户输入包含形容词的自然语言；以及

音色估计模块，使用根据形容词输出音色数据的学习完毕模型，基于所述用户输入的自然语言而输出音色数据。

2.如权利要求1所述的信息处理装置，其中，

由所述音色估计模块输出的音色数据是多个音色数据，

所述信息处理装置还具备提示模块，所述提示模块将所述多个音色数据作为应由用户选择的音色数据的候选提示给用户。

3.如权利要求2所述的信息处理装置，其中，

所述提示模块发出所述音色数据的候选的声音。

4.如权利要求3所述的信息处理装置，其中，

所述音色数据的候选由波形数据以及效果参数的至少一者构成。

5.如权利要求4所述的信息处理装置，其中，

所述音色数据的候选是包含多个音色数据的音色数据集。

6.如权利要求4或5所述的信息处理装置，其中，

在所述音色数据的候选仅由效果参数构成的情况下，所述提示模块将作为所述音色数据的候选的效果参数与默认的波形数据组合而发出声音。

7.如权利要求4或5所述的信息处理装置，其中，

在所述音色数据的候选仅由效果参数构成、且所述用户输入的自然语言中包含乐器种类的情况下，所述提示模块将作为所述音色数据的候选的效果参数与所述乐器种类的波形数据组合而发出声音。

8.如权利要求7所述的信息处理装置，其中，

所述提示模块根据所述乐器种类来限制所述音色数据的候选。

9.如权利要求2至8中任意一项所述的信息处理装置，其中，

基于从所述音色数据的候选中用户选择的音色数据以及所述用户输入的自然语言中包含的形容词，进行所述学习完毕模型的追加学习。

10.如权利要求2至9中任意一项所述的信息处理装置，其中，

所述音色估计模块从潜在空间取得标记了所述用户输入的自然语言中包含的形容词的潜在变量，并通过将所述取得的潜在变量输入到所述学习完毕模型来输出所述多个音色数据。

11.一种控制方法，由计算机实现，在所述控制方法中，

取得用户输入的包含形容词的自然语言；以及

使用根据形容词输出音色数据的学习完毕模型，基于所述用户输入的自然语言而输出音色数据。

12.如权利要求11所述的控制方法，其中，

由所述音色数据输出处理输出的音色数据是多个音色数据，

将所述多个音色数据作为应由用户选择的音色数据的候选提示给用户。

13.如权利要求12所述的控制方法，其中，

在所述提示处理中，发出所述音色数据的候选的声音。

14.如权利要求13所述的控制方法，其中，

15.如权利要求14所述的控制方法，其中，

所述音色数据的候选是包含多个音色数据的音色数据集。

16.如权利要求14或15所述的控制方法，其中，

在所述音色数据的候选仅由效果参数构成的情况下，在所述提示处理中，将作为所述音色数据的候选的效果参数与默认的波形数据组合而发出声音。

17.如权利要求14或者15所述的控制方法，其中，

在所述音色数据的候选仅由效果参数构成、且所述用户输入的自然语言中包含乐器种类的情况下，在所述提示处理中，将作为所述音色数据的候选的效果参数与所述乐器种类的波形数据组合而发出声音。

18.如权利要求17所述的控制方法，其中，

在所述处理中，根据所述乐器种类来限制所述音色数据的候选。

19.如权利要求12至18中任意一项所述的控制方法，其中，

20.如权利要求12至19中任意一项所述的控制方法，其中，

在所述音色数据输出处理中，从潜在空间取得标记了所述用户输入的自然语言中包含的形容词的潜在变量，并通过将所述取得的潜在变量输入到所述学习完毕模型来输出所述多个音色数据。