CN114402382A

CN114402382A - 信息处理方法、推定模型构建方法、信息处理装置及推定模型构建装置

Info

Publication number: CN114402382A
Application number: CN202080064952.3A
Authority: CN
Inventors: 大道龙之介
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2019-09-26
Filing date: 2020-09-25
Publication date: 2022-04-26
Also published as: JP2021051251A; US11875777B2; JP7331588B2; WO2021060493A1; US20220208175A1

Abstract

信息处理装置(100)具有：第1生成部(21)，其使用以基于第1控制数据(C1)而输出时间变动成分(X)的方式训练得到的第1推定模型(M1)，将应当合成的目标合成音的第1控制数据(C1)进行处理，生成所述目标合成音的时间变动成分(X)；以及第2生成部(22)，其使用以基于第2控制数据(C2)和时间变动成分(X)而输出特征量的时间序列的方式训练得到的第2推定模型(M2)，对所述目标合成音的第2控制数据(C2)和所述目标合成音的时间变动成分(X)进行处理，生成所述目标合成音的特征量的时间序列。

Description

信息处理方法、推定模型构建方法、信息处理装置及推定模型构建装置

技术领域

本发明涉及生成与语音或乐音等声音相关的特征量的时间序列的技术。

背景技术

以往提出有对歌唱语音或乐器的演奏音等任意声音进行合成的声音合成技术。例如，在非专利文献1中公开了通过神经网络而生成合成音的音高的时间序列的技术。通过利用包含音高的时间序列在内的多个训练数据的机器学习，构建用于推定音高的推定模型。

非专利文献1：Merlijn Blaauw,Jordi Bonada,"A Neural Parametric SingingSynthesizer Modeling Timbre and Expression from Natural Songs,"AppliedSciences 7(12):1313,2017

发明内容

在多个训练数据各自的音高的时间序列中包含时间上变动的动态成分(以下，称为“时间变动成分”)。但是，在利用多个训练数据而构建的推定模型中，存在生成抑制了时间变动成分的音高的时间序列的倾向。因此，对于生成充分地包含时间变动成分的高音质的合成音，存在限制。此外，在以上的说明中，关注了生成音高的时间序列的情况，但可想到在生成音高以外的特征量的时间序列的情况下，也存在相同的课题。考虑到以上情况，本发明的一个方式的目的在于，生成特征量的时间序列适当地包含时间变动成分的、高音质的合成音。

为了解决以上课题，本发明的一个方式涉及的信息处理方法，使用以基于第1控制数据而输出时间变动成分的方式训练得到的第1推定模型，将应当合成的目标合成音的第1控制数据进行处理，生成所述目标合成音的时间变动成分，使用以基于第2控制数据和时间变动成分而输出特征量的时间序列的方式训练得到的第2推定模型，对所述目标合成音的第2控制数据和所述目标合成音的时间变动成分进行处理，生成所述目标合成音的特征量的时间序列。

另外，本发明的一个方式涉及的推定模型构建方法，根据表示所收录的声音的参照信号，生成训练用的特征量的时间序列和训练用的时间变动成分的时间序列，使用与所述所收录的声音相对应的训练用的第1控制数据和所述训练用的时间变动成分的时间序列，通过机器学习构建将应当合成的目标合成音的第1控制数据进行处理而输出所述目标合成音的时间变动成分的第1推定模型，使用与所述所收录的声音相对应的训练用的第2控制数据、训练用的时间变动成分的时间序列、及训练用的特征量的时间序列，通过机器学习构建对所述目标合成音的第2控制数据和所述目标合成音的时间变动成分进行处理而输出所述目标合成音的特征量的时间序列的第2推定模型。

本发明的一个方式涉及的信息处理装置具有：第1生成部，其使用以基于第1控制数据而输出时间变动成分的方式训练得到的第1推定模型，基于应当合成的目标合成音的第1控制数据而生成所述目标合成音的时间变动成分；以及第2生成部，其使用以基于第2控制数据和时间变动成分而输出特征量的时间序列的方式训练得到的第2推定模型，基于所述目标合成音的第2控制数据和所述目标合成音的时间变动成分而生成所述目标合成音的特征量的时间序列。本发明的一个方式涉及的推定模型构建装置具有：生成部，其根据表示所收录的声音的参照信号而生成训练用的特征量的时间序列和训练用的时间变动成分的时间序列；第1训练部，其使用与所述所收录的声音相对应的训练用的第1控制数据和所述训练用的时间变动成分的时间序列，通过机器学习构建基于应当合成的目标合成音的第1控制数据而输出所述目标合成音的时间变动成分的第1推定模型；以及第2训练部，其使用与所述所收录的声音相对应的训练用的第2控制数据、训练用的时间变动成分的时间序列、及训练用的特征量的时间序列，通过机器学习构建基于所述目标合成音的第2控制数据和所述目标合成音的时间变动成分而输出所述目标合成音的特征量的时间序列的第2推定模型。

附图说明

图1是例示出声音合成装置的结构的框图。

图2是存储装置的模式图。

图3是例示出合成处理部的结构的框图。

图4是例示出合成处理的具体流程的流程图。

图5是例示出学习处理部的结构的框图。

图6是例示出学习处理的具体流程的流程图。

图7是例示出第2实施方式的合成处理部的结构的框图。

图8是例示出第3实施方式的合成处理部的结构的框图。

图9是例示出变形例的合成处理部的结构的框图。

图10是例示出变形例的学习处理部的结构的框图。

具体实施方式

A：第1实施方式

图1是例示出本发明的第1实施方式涉及的声音合成装置100的结构的框图。声音合成装置100是生成成为合成的目标的任意音响(以下，称为“目标音”)的信息处理装置。目标音例如是通过歌唱者虚拟地歌唱乐曲而发音的歌唱语音、或通过演奏者用乐器虚拟地演奏乐曲而发音的乐音。目标音是“应当合成的声音”的一个例子。

声音合成装置100由具有控制装置11、存储装置12、放音装置13的计算机系统实现。例如，移动电话机、智能手机或个人计算机等信息终端被用作声音合成装置100。此外，也可以通过相互分体地构成的多个装置的集合(即，系统)而实现声音合成装置100。

控制装置11由对声音合成装置100的各要素进行控制的单个或多个处理器构成。例如，控制装置11由CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、或ASIC(Application Specific Integrated Circuit)等1种以上的处理器构成。具体而言，控制装置11生成表示目标音的波形的时间区域的音响信号V。

放音装置13对由控制装置11生成的音响信号V所表示的目标音进行放音。放音装置13例如是扬声器或耳机。此外，对于将音响信号V从数字转换为模拟的D/A转换器、将音响信号V放大的放大器，为了方便而省略了图示。另外，在图1中，例示出将放音装置13搭载于声音合成装置100的结构，但也可以将与声音合成装置100分体的放音装置13通过有线或无线的方式连接至声音合成装置100。

存储装置12如图2所例示的那样，是对控制装置11所执行的程序(例如声音合成程序G1及机器学习程序G2)和控制装置11所使用的各种数据(例如乐曲数据D及参照数据Q)进行存储的单个或多个存储器。存储装置12例如由磁记录介质或半导体记录介质等公知的记录介质构成。此外，也可以通过多种记录介质的组合而构成存储装置12。另外，也可以将相对于声音合成装置100能够装卸的移动型的记录介质、或能够与声音合成装置100通信的外部记录介质(例如网络硬盘)作为存储装置12而利用。

乐曲数据D对构成乐曲的音符的时间序列(即，乐谱)进行指定。例如，乐曲数据D是针对每个发音单位而指定音高和发音期间的时间序列数据。发音单位例如是1个音符。但是，也可以将1个音符区分为多个发音单位。此外，在歌唱语音的合成时所利用的乐曲数据D中，针对每个发音单位而指定音韵(例如发音文字)。

A1：合成处理部20

控制装置11通过执行声音合成程序G1而作为图3的合成处理部20起作用。合成处理部20生成与乐曲数据D相对应的音响信号V。合成处理部20具有第1生成部21、第2生成部22、第3生成部23、控制数据生成部24、信号合成部25。

控制数据生成部24根据乐曲数据D而生成第1控制数据C1、第2控制数据C2、第3控制数据C3。各控制数据C(C1、C2、C3)是指定与目标音相关的条件的数据。控制数据生成部24针对时间轴上的每个单位期间(例如规定长度的时间帧)而生成各控制数据C。各单位期间的控制数据C例如对该单位期间的音符的音高、发音期间的开始或结束、以及相前后的音符之间的关系(例如音高差等的脉络(context))进行指定。控制数据生成部24由通过机器学习对乐曲数据D和各控制数据C之间的关系进行学习得到的深度神经网络等推定模型构成。

第1生成部21生成与第1控制数据C1相对应的时间变动成分X。时间变动成分X针对每个单位期间而依次生成。即，第1生成部21根据第1控制数据C1的时间序列而生成时间变动成分X的时间序列。第1控制数据C1还换称为对时间变动成分X的条件进行指定的数据。

时间变动成分X是在目标音的音高(基本频率)Y的时间序列中时间上变动的动态成分。如果设想在音高Y的时间序列中时间上变动缓慢的稳态成分，则稳态成分以外的动态成分相当于时间变动成分X。例如，时间变动成分X是在音高Y的时间序列中高于规定的频率的高频成分。另外，第1生成部21也可以生成与音高Y的时间序列相关的时间上的微分值作为时间变动成分X。时间变动成分X的时间序列例如包含颤音等作为音乐表现的变动、在歌唱语音或乐音中概率性地发生的变动(波动成分)这两者。

在基于第1生成部21进行的时间变动成分X的生成中利用第1推定模型M1。第1推定模型M1是以第1控制数据C1作为输入而输出时间变动成分X的统计性模型。即，第1推定模型M1是充分地学习第1控制数据C1和时间变动成分X之间的关系得到的训练好的模型。

第1推定模型M1例如由深度神经网络构成。具体而言，第1推定模型M1是使针对各单位期间而生成的时间变动成分X回归至输入层以生成紧邻其后的单位期间的时间变动成分X的递归神经网络(RNN：Recurrent Neural Network)。但是，也可以将卷积神经网络(CNN：Convolutional Neural Network)等任意种类的神经网络作为第1推定模型M1而利用。第1推定模型M1也可以具有长短期存储(LSTM：Long Short-Term Memory)等付加性要素。此外，在第1推定模型M1的输出级，设置对时间变动成分X的概率分布进行规定的输出层、生成(采样)遵照该概率分布的随机数作为时间变动成分X的提取部。

第1推定模型M1通过使控制装置11执行根据第1控制数据C1而生成时间变动成分X的运算的人工智能程序A1、和应用于该运算的多个变量W1(具体而言，加权值及偏差)的组合而实现。人工智能程序A1和多个变量W1存储于存储装置12。多个变量W1各自的数值通过机器学习而设定。

第2生成部22生成与第2控制数据C2和时间变动成分X相对应的音高Y。音高Y针对每个单位期间而依次生成。即，第2生成部22根据第2控制数据C2的时间序列和时间变动成分X的时间序列而生成音高Y的时间序列。音高Y的时间序列是包含在时间轴上动态地变动的时间变动成分X、及与时间变动成分X相比而时间上变动缓慢的稳态成分在内的音高曲线。第2控制数据C2还换称为对音高Y的条件进行指定的数据。

在基于第2生成部22进行的音高Y的生成中利用第2推定模型M2。第2推定模型M2是以第2控制数据C2和时间变动成分X作为输入而输出音高Y的统计性模型。即，第2推定模型M2是充分地学习第2控制数据C2及时间变动成分X的组合和音高Y之间的关系得到的训练好的模型。

第2推定模型M2例如由深度神经网络构成。具体而言，第2推定模型M2例如由卷积神经网络、递归神经网络等任意种类的神经网络构成。第2推定模型M2也可以具有长短期存储等付加性要素。此外，在第2推定模型M2的输出级，设置对音高Y的概率分布进行规定的输出层、生成(采样)遵照该概率分布的随机数作为音高Y的提取部。

第2推定模型M2通过使控制装置11执行根据第2控制数据C2和时间变动成分X而生成音高Y的运算的人工智能程序A2、和应用于该运算的多个变量W2(具体而言，加权值及偏差)的组合而实现。人工智能程序A2和多个变量W2存储于存储装置12。多个变量W2各自的数值通过机器学习而设定。

第3生成部23生成与第3控制数据C3和音高Y相对应的频率特性Z。频率特性Z针对每个单位期间而依次生成。即，第3生成部23根据第3控制数据C3的时间序列和音高Y的时间序列而生成频率特性Z的时间序列。第1实施方式的频率特性Z例如是目标音的振幅谱。第3控制数据C3还换称为对频率特性Z的条件进行指定的数据。

在基于第3生成部23进行的频率特性Z的生成中，利用第3推定模型M3。第3推定模型M3是生成与第3控制数据C3和音高Y相对应的频率特性Z的统计性模型。即，第3推定模型M3是充分地学习第3控制数据C3及音高Y的组合和频率特性Z之间的关系得到的训练好的模型。

第3推定模型M3例如由深度神经网络构成。具体而言，第3推定模型M3例如由卷积神经网络、递归神经网络等任意种类的神经网络构成。第3推定模型M3也可以具有长短期存储等付加性要素。此外，在第3推定模型M3的输出级，设置对表示频率特性Z的各成分(频段)的概率分布进行规定的输出层、生成(采样)遵照该概率分布的随机数作为频率特性Z的提取部。

第3推定模型M3通过使控制装置11执行根据第3控制数据C3和音高Y而生成频率特性Z的运算的人工智能程序A3、和应用于该运算的多个变量W3(具体而言，加权值及偏差)的组合而实现。人工智能程序A3和多个变量W3存储于存储装置12。多个变量W3各自的数值通过机器学习而设定。

信号合成部25根据由第3生成部23生成的频率特性Z的时间序列而生成音响信号V。具体而言，信号合成部25通过包含例如离散傅里叶逆变换的运算将频率特性Z转换为时间波形，在多个单位期间的范围将时间波形连结，由此生成音响信号V。音响信号V被供给至放音装置13。

此外，信号合成部25也可以具有通过机器学习充分地学习频率特性Z的时间序列和音响信号V之间的潜在关系得到的、所谓神经网络声码器。信号合成部25使用神经网络声码器，对被供给来的频率特性Z的时间序列进行处理而生成音响信号V。

图4是例示出控制装置11(合成处理部20)生成音响信号V的处理(以下，称为“合成处理”)Sa的具体流程的流程图。例如，以来自利用者对声音合成装置100的指示为契机而开始合成处理Sa。合成处理Sa针对每个单位期间而执行。

控制数据生成部24根据乐曲数据D而生成控制数据C(C1、C2、C3)(Sa1)。第1生成部21通过使用第1推定模型M1对第1控制数据C1进行处理而生成时间变动成分X(Sa2)。第2生成部22通过使用第2推定模型M2对第2控制数据C2和时间变动成分X进行处理而生成音高Y(Sa3)。第3生成部23通过使用第3推定模型M3对第3控制数据C3和音高Y进行处理而生成频率特性Z(Sa4)。信号合成部25根据频率特性Z而生成音响信号V(Sa5)。

如以上所说明的那样，在第1实施方式中，通过第1推定模型M1生成与第1控制数据C1相对应的时间变动成分X，通过第2推定模型M2生成与第2控制数据C2和时间变动成分X相对应的音高Y。因此，与利用学习对目标音进行指定的控制数据和音高Y之间的关系得到的单个推定模型而生成与控制数据相对应的音高Y的结构(以下，成为“对比例”)相比，能够生成丰富地包含时间变动成分X的音高Y的时间序列。根据以上结构，能够生成听觉上自然的丰富地包含时间变动成分X的目标音。

A2：学习处理部30

控制装置11通过执行机器学习程序G2而作为图5的学习处理部30起作用。学习处理部30通过机器学习而构建第1推定模型M1、第2推定模型M2、第3推定模型M3。具体而言，学习处理部30对第1推定模型M1的多个变量W1各自的数值、第2推定模型M2的多个变量W2各自的数值、和第3推定模型M3的多个变量W3各自的数值进行设定。

存储装置12存储多个参照数据Q。多个参照数据Q分别是使乐曲数据D和参照信号R相互对应的数据。乐曲数据D对构成乐曲的音符的时间序列进行指定。各参照数据Q的参照信号R表示通过歌唱或演奏该参照数据Q的乐曲数据D所示的乐曲而发音的声音的波形。特定的歌唱者所歌唱的语音或特定的演奏者所演奏的乐音事先被收录，表示该语音或该乐音的参照信号R与乐曲数据D一起存储于存储装置12。此外，也可以根据多个歌唱者的语音或多个演奏者的乐音而生成参照信号R。

学习处理部30具有第1训练部31、第2训练部32、第3训练部33和训练数据准备部34。训练数据准备部34准备多个第1训练数据T1、多个第2训练数据T2、多个第3训练数据T3。多个第1训练数据T1分别是使第1控制数据C1和时间变动成分X相互对应的已知数据。多个第2训练数据T2分别是使第2控制数据C2及时间变动成分Xa的组合和音高Y相互对应的已知数据。时间变动成分Xa是对时间变动成分X附加了噪声成分的成分。多个第3训练数据T3分别是使第3控制数据C3及音高Y的组合和频率特性Z相互对应的已知数据。

训练数据准备部34具有控制数据生成部341、频率解析部342、变动提取部343、噪声赋予部344。控制数据生成部341根据各参照数据Q的乐曲数据D而针对每个单位期间生成控制数据C(C1、C2、C3)。控制数据生成部341的结构及动作与前述的控制数据生成部24相同。

频率解析部342根据各参照数据Q的参照信号R而生成音高Y和频率特性Z。针对每个单位期间生成音高Y和频率特性Z。即，频率解析部342生成参照信号R的音高Y的时间序列和频率特性Z的时间序列。在参照信号R的音高Y及频率特性Z的生成中任意采用离散傅里叶变换等公知的解析技术。

变动提取部343根据音高Y而生成时间变动成分X。针对每个单位期间生成时间变动成分X。即，变动提取部343根据音高Y的时间序列而生成时间变动成分X的时间序列。具体而言，变动提取部343计算出音高Y的时间序列的微分值作为时间变动成分X。此外，也可以采用将高于规定的频率的高频成分作为时间变动成分X而提取的滤波器(高通滤波器)，作为变动提取部343。

噪声赋予部344通过对时间变动成分X的时间序列赋予噪声成分而生成时间变动成分Xa。具体而言，噪声赋予部344将遵照例如正态分布等规定的概率分布的随机数作为噪声成分而赋予给时间变动成分X的时间序列。此外，在不对时间变动成分X的时间序列赋予噪声成分的结构中，存在通过第1推定模型M1而推定出过度地反映了各参照信号R的音高Y的变动成分的时间变动成分X的倾向。在第1实施方式中，由于对时间变动成分X赋予噪声成分(即，正则化)，因此能够通过第1推定模型M1推定出适度地反映了参照信号R的音高Y的变动成分的倾向的时间变动成分X。但是，在参照信号R的过度的反映不会成为特别的问题的情况下，也可以省略噪声赋予部344。

使第1控制数据C1和时间变动成分X(正解值)相对应的第1训练数据T1被供给至第1训练部31。使第2控制数据C2及时间变动成分X的组合和音高Y(正解值)相对应的第2训练数据T2被供给至第2训练部32。使第3控制数据C3及音高Y的组合和频率特性Z(正解值)相对应的第3训练数据T3被供给至第3训练部33。

第1训练部31通过利用多个第1训练数据T1的有监督的机器学习而构建第1推定模型M1。具体而言，第1训练部31以使得在供给了各第1训练数据T1的第1控制数据C1的情况下由暂定的第1推定模型M1生成的时间变动成分X、和该第1训练数据T1的时间变动成分X之间的误差减小的方式，反复进行与第1推定模型M1相关的多个变量W1的更新。因此，第1推定模型M1对在多个第1训练数据T1的第1控制数据C1和时间变动成分X之间潜在的关系进行学习。即，通过第1训练部31得到的训练后的第1推定模型M1针对未知的第1控制数据C1而基于该关系输出统计上妥当的时间变动成分X。

第2训练部32通过利用多个第2训练数据T2的有监督的机器学习而构建第2推定模型M2。具体而言，第2训练部32以使得在供给了各第2训练数据T2的第2控制数据C2及时间变动成分X的情况下由暂定的第2推定模型M2生成的音高Y、和该第2训练数据T2的音高Y之间的误差减小的方式，反复进行与第2推定模型M2相关的多个变量W2的更新。因此，第2推定模型M2对在多个第2训练数据T2的第2控制数据C2及时间变动成分X的组合和音高Y之间潜在的关系进行学习。即，通过第2训练部32得到的训练后的第2推定模型M2针对未知的第2控制数据C2及时间变动成分X的组合而基于该关系输出统计上妥当的音高Y。

第3训练部33通过利用多个第3训练数据T3的有监督的机器学习而构建第3推定模型M3。具体而言，第3训练部33以使得在供给了各第3训练数据T3的第3控制数据C3及音高Y的情况下由暂定的第3推定模型M3生成的频率特性Z、和该第3训练数据T3的频率特性Z之间的误差减小的方式，反复进行与第3推定模型M3相关的多个变量W3的更新。因此，第3推定模型M3对在多个第3训练数据T3的第3控制数据C3及音高Y的组合和频率特性Z之间潜在的关系进行学习。即，通过第3训练部33得到的训练后的第3推定模型M3针对未知的第3控制数据C3及音高Y的组合而基于该关系输出统计上妥当的频率特性Z。

图6是例示出控制装置11(学习处理部30)对推定模型M(M1、M2、M3)进行训练的处理(以下，称为“学习处理”)Sb的具体流程的流程图。例如，将来自利用者对声音合成装置100的指示为契机而开始学习处理Sb。学习处理Sb针对每个单位期间执行。

训练数据准备部34根据参照数据Q而生成第1训练数据T1、第2训练数据T2和第3训练数据T3(Sb1)。具体而言，控制数据生成部341根据乐曲数据D而生成第1控制数据C1、第2控制数据C2、第3控制数据C(Sb11)。频率解析部342根据参照信号R而生成音高Y和频率特性Z(Sb12)。变动提取部343根据音高Y的时间序列而生成时间变动成分X(Sb13)。噪声赋予部344通过对时间变动成分X赋予噪声成分而生成时间变动成分Xa(Sb14)。通过以上处理，生成第1训练数据T1、第2训练数据T2、第3训练数据T3。此外，也可以将各控制数据C的生成(Sb11)和与参照信号R相关的处理(Sb12－Sb14)的顺序颠倒。

第1训练部31通过利用了第1训练数据T1的机器学习而更新第1推定模型M1的多个变量W1(Sb2)。第2训练部32通过利用了第2训练数据T2的机器学习而更新第2推定模型M2的多个变量W2(Sb3)。第3训练部33通过利用了第3训练数据T3的机器学习而更新第3推定模型M3的多个变量W3(Sb4)。通过反复进行以上说明的学习处理Sb，构建第1推定模型M1、第2推定模型M2和第3推定模型M3。

但是，在利用学习对目标音的条件进行指定的控制数据和音高Y之间的关系得到的单个推定模型的前述的对比例中，通过利用了使控制数据和与参照信号R的音高Y相对应的训练数据的机器学习而构建该推定模型。由于各参照信号R的变动成分的相位不同，因此，在对比例中，对在多个参照信号R的范围将变动成分平均化后的音高Y进行学习。因此，例如，在1个音符的发音期间内存在音高Y稳定地推移的倾向。如根据以上说明所理解的那样，在对比例中，难以生成丰富地包含例如颤音等音乐表现、或概率性的波动成分等动态变动成分在内的目标音。

相对于以上说明的对比例，在第1实施方式中，通过包含第1控制数据C1和时间变动成分X的第1训练数据T1而构建第1推定模型M1，通过包含第2控制数据C2及时间变动成分X的组合和音高Y的第2训练数据T2而构建第2推定模型M2。根据以上结构，时间变动成分X的倾向和音高Y的倾向反映于单独的推定模型，因此通过第1推定模型M1而生成适当地反映了各参照信号R的动态变动成分的倾向的时间变动成分X。因此，与对比例相比，能够生成丰富地包含时间变动成分X的音高Y的时间序列。即，能够生成听觉上自然的丰富地包含时间变动成分X的目标音。

B：第2实施方式

对第2实施方式进行说明。此外，在以下所例示的各方式中，对于功能与第1实施方式相同的要素，沿用在第1实施方式的说明中使用的标号，适当省略各自的详细说明。

图7是例示出第2实施方式的合成处理部20的结构的框图。在第2实施方式的合成处理部20中，由第2生成部22生成的音高Y的时间序列被供给至信号合成部25。另外，第2实施方式的频率特性Z是表示振幅谱的轮廓(contour)的振幅谱包络。振幅谱包络例如由梅尔频谱或梅尔倒谱表现。信号合成部25根据频率特性Z的时间序列和音高Y的时间序列而生成音响信号V。具体而言，第1，信号合成部25生成包含与音高Y相对应的基音成分和多个泛音成分的谐波构造的图谱。第2，信号合成部25将该图谱的基音成分及各泛音成分的峰值的强度调整为与频率特性Z所示的图谱包络相匹配。第3，信号合成部25将调整后的图谱转换为时间波形，在多个单位期间的范围将时间波形连结，由此生成音响信号V。

此外，信号合成部25也可以具有通过机器学习而学到频率特性Z的时间序列及音高Y的时间序列和音响信号V之间的潜在性关系的所谓神经网络声码器。信号合成部25利用神经网络声码器，对供给来的音高Y的时间序列和振幅谱包络进行处理，生成音响信号V。

与信号合成部25以外的要素相关的结构及动作与第1实施方式相同。因此，在第2实施方式中，也实现与第1实施方式相同的效果。

C：第3实施方式

图8是例示出第3实施方式的合成处理部20的结构的框图。在第3实施方式的合成处理部20中，第1实施方式的第3生成部23及信号合成部25被置换为声源部26。

声源部26是生成与第3控制数据C3和音高Y相对应的音响信号V的声源。声源部26生成音响信号V时所应用的各种声源参数P被存储于存储装置12。声源部26通过应用声源参数P的声源处理，生成与第3控制数据C3和音高Y相对应的音响信号V。例如FM(FrequencyModulation)声源等各种声源被作为声源部26而利用。美国专利第7626113号或专利第4218624号所记载的声源被作为声源部26而利用。此外，声源部26除了通过控制装置11执行程序而实现以外，还可以通过专用于音响信号V的生成的电路而实现。

第1生成部21及第2生成部22的结构及动作与第1实施方式相同。第1推定模型M1及第2推定模型M2的结构及动作也与第1实施方式相同。因此，在第3实施方式中，也实现与第1实施方式相同的效果。如根据第3实施方式的例示所理解的那样，第1实施方式或第2实施方式的第3生成部23及第3推定模型M3可以省略。

＜变形例＞

以下，例示出向以上例示的各方式附加的具体变形的方式。可以在彼此不矛盾的范围，适当将从以下例示任意选择出的2个以上方式合并。

(1)在前述的各方式中，将第1控制数据C1、第2控制数据C2和第3控制数据C3作为独立的数据而例示，但第1控制数据C1、第2控制数据C2和第3控制数据C3也可以是共通的数据。另外，也可以将第1控制数据C1、第2控制数据C2和第3控制数据C3中的2个设为共通的数据。

例如，也可以如图9所例示的那样，将由控制数据生成部24生成的控制数据C作为第1控制数据C1而向第1生成部21供给，作为第2控制数据C2而向第2生成部22供给，作为第3控制数据C3而向第3生成部23供给。此外，在图9中，图示出将第1实施方式作为基础的变形例，但使第1控制数据C1、第2控制数据C2和第3控制数据C3共通的结构在第2实施方式或第3实施方式中也能相同地适用。

另外，也可以如图10所例示的那样，将由控制数据生成部341生成的控制数据C作为第1控制数据C1而向第1训练部31供给，作为第2控制数据C2而向第2训练部32供给，作为第3控制数据C3而向第3训练部33供给。

(2)在前述的各方式中，第2推定模型M2生成音高Y，但由第2推定模型M2生成的特征量不限定于音高Y。例如，也可以是第2推定模型M2生成目标音的音量，第1推定模型M1生成该音量的时间序列的时间变动成分X。在第2训练数据T2及第3训练数据T3，取代前述的各方式的音高Y而包含参照信号R的音量，在第1训练数据T1包含与音量相关的时间变动成分X。

另外，例如也可以是，第2推定模型M2生成表示目标音的音色的特征量(例如梅尔倒谱)，第1推定模型M1生成该特征量的时间序列的时间变动成分X。在第2训练数据T2及第3训练数据T3，取代前述的各方式的音高Y而包含音色的特征量，在第1训练数据T1包含与音色的特征量相关的时间变动成分X。如根据以上说明所理解的那样，特征量综合表现为表示音响的特征的任意种类的物理量，音高Y、音量和音色是特征量的例示。

(3)在前述的各方式中，根据音高Y的时间变动成分X而生成该音高Y，但由第1生成部21生成的时间变动成分X表示的特征量和由第2生成部22生成的特征量也可以是不同种类的特征量。例如，设想目标音的音高Y的时间变动成分存在与该目标音的音量的时间变动成分相关这样的倾向。如果考虑到以上倾向，则第1生成部21通过第1推定模型M1而生成的时间变动成分X也可以是音量的时间变动成分。第2生成部22通过将第2控制数据C2和音量的时间变动成分X输入至第1推定模型M1而生成音高Y的时间序列。第1训练数据T1包含第1控制数据C1和音量的时间变动成分X。第2训练数据T2是使第2控制数据C2及音量的时间变动成分Xa的组合和音高Y相互对应的已知数据。如根据以上的例示所理解的那样，第1生成部21综合表现为向以将第1控制数据C1作为输入而输出时间变动成分X的方式充分地训练得到的第1推定模型M1输入目标音的第1控制数据C1的要素，时间变动成分X表示的特征量是与由第2生成部22生成的特征量相关的任意种类的特征量。

(4)在前述的各方式中，例示出具有合成处理部20及学习处理部30这两者的声音合成装置100，但也可以从声音合成装置100省略学习处理部30。另外，作为具有学习处理部30的推定模型构建装置，在本发明也进行了特定。推定模型构建装置还换称为通过机器学习而构建推定模型的机器学习装置。在推定模型构建装置中，有无合成处理部20是任意的，在声音合成装置100，有无学习处理部30是任意的。

(5)也可以通过在与移动电话机或智能手机等终端装置之间进行通信的服务器装置而实现声音合成装置100。例如，声音合成装置100生成与从终端装置接收到的乐曲数据D相对应的音响信号V，将该音响信号V发送至终端装置。在从终端装置发送控制数据C(C1、C2、C3)的结构中，从声音合成装置100省略控制数据生成部24。

(6)以上所例示的声音合成装置100的功能如前述那样，通过构成控制装置11的单个或多个处理器、和存储于存储装置12的程序(例如，声音合成程序G1及机器学习程序G2)的协同动作而实现。本发明涉及的程序可以以储存于计算机可读取的记录介质的方式提供而安装于计算机。记录介质例如是非临时性(non-transitory)的记录介质，优选是CD-ROM等光学式记录介质(光盘)，还包含半导体记录介质或磁记录介质等公知的任意形式的记录介质。此外，作为非临时性的记录介质，包含除了临时性的传输信号(transitory,propagating signal)以外的任意的记录介质，也可以不将易失性的记录介质除外。另外，在传送装置经由通信网而传送程序的结构中，在该传送装置，对程序进行存储的存储装置相当于前述的非临时性的记录介质。

(7)用于实现推定模型M(M1、M2、M3)的人工智能软件的执行主体不限定于CPU。例如，Tensor Processing Unit(张量处理单元)或Neural Engine(神经引擎)等神经网络专用的处理电路、或人工智能专用的DSP(Digital Signal Processor)也可以执行人工智能软件。另外，也可以是从由以上的例示选择出的多种处理电路协同动作而执行人工智能软件。

＜附录＞

根据以上例示的方式，例如能够掌握以下结构。

本发明的一个方式(方式1)涉及的信息处理方法，使用以基于第1控制数据而输出时间变动成分的方式充分地训练得到的第1推定模型，将应当合成的目标合成音的第1控制数据进行处理，生成所述目标合成音的时间变动成分，使用以基于第2控制数据和时间变动成分而输出特征量的时间序列的方式充分地训练得到的第2推定模型，对所述目标合成音的第2控制数据和所述目标合成音的时间变动成分进行处理，生成所述目标合成音的特征量的时间序列。在以上的方式中，利用第1推定模型而生成与第1控制数据相对应的时间变动成分，利用第2推定模型而生成与第2控制数据和时间变动成分相对应的特征量的时间序列。因此，与利用对控制数据和特征量之间的关系进行学习而得到的单个推定模型的情况相比，能够生成丰富地包含时间变动成分的特征量的时间序列。

此外，“时间变动成分”是应当合成的目标合成音中时间上变动的动态成分。在特征量的时间序列中时间上变动的成分相当于“时间变动成分”，但在与该特征量不同种类的特征量的时间序列中在时间上变动的成分也包含于“时间变动成分”。例如，如果设想在特征量的时间序列中时间上变动缓慢的稳态成分，则稳态成分以外的动态成分相当于时间变动成分。第1控制数据和第2控制数据可以相同，也可以不同。

例如，所述特征量的时间序列表示所述目标合成音的音高、音量及音色中的至少一个。

在方式1的具体例(方式2)中，在所述时间变动成分的生成中，生成所述目标合成音的与特征量的时间序列相关的时间变动成分。在以上的方式中，通过第1推定模型生成的时间变动成分表示的特征量和通过第2推定模型生成的特征量是相同种类的特征量，因此通过第1推定模型而生成与通过第2推定模型生成的特征量不同种类的特征量的时间变动成分的情况相比，能够生成听觉上自然地变动的特征量的时间序列。

在方式2的具体例(方式3)中，所述时间变动成分是与所述特征量的时间序列相关的微分值。在方式2的其他具体例(方式4)中，所述时间变动成分是在所述特征量的时间序列中高于规定的频率的成分。

在方式1至方式3的任意的具体例(方式5)中，使用以基于第3控制数据和特征量的时间序列而输出频率特性的方式充分地训练得到的第3推定模型，对所述目标合成音的第3控制数据和所述目标合成音的特征量的时间序列进行处理，生成所述目标合成音的频率特性。第3控制数据和第1控制数据或第2控制数据可以相同，也可以不同。

例如，所述目标合成音的频率特性是所述目标合成音的频谱或所述目标合成音的振幅谱包络。

例如，所述信息处理方法基于所述目标合成音的频率特性而生成音响信号。

本发明的一个方式(方式6)涉及的推定模型构建方法，根据表示所收录的声音的参照信号，生成训练用的特征量的时间序列和训练用的时间变动成分的时间序列，使用与所述所收录的声音相对应的训练用的第1控制数据和所述训练用的时间变动成分的时间序列，通过机器学习构建将应当合成的目标合成音的第1控制数据进行处理而输出所述目标合成音的时间变动成分的第1推定模型，使用与所述所收录的声音相对应的训练用的第2控制数据、训练用的时间变动成分的时间序列、及训练用的特征量的时间序列，通过机器学习构建对所述目标合成音的第2控制数据和所述目标合成音的时间变动成分进行处理而输出所述目标合成音的特征量的时间序列的第2推定模型。在以上的方式中，构建对第1控制数据进行处理而输出时间变动成分的第1推定模型、和对第2控制数据和该时间变动成分进行处理而输出特征量的时间序列的第2推定模型。因此，与构建学习控制数据和特征量之间的关系得到的单个推定模型的情况相比，能够生成丰富地包含时间变动成分的特征量的时间序列。

方式7涉及的信息处理装置具有：第1生成部，其使用以基于第1控制数据而输出时间变动成分的方式充分地训练得到的第1推定模型，基于应当合成的目标合成音的第1控制数据而生成所述目标合成音的时间变动成分；以及第2生成部，其使用以基于第2控制数据和时间变动成分而输出特征量的时间序列的方式充分地训练得到的第2推定模型，基于所述目标合成音的第2控制数据和所述目标合成音的时间变动成分而生成所述目标合成音的特征量的时间序列。

方式8涉及的推定模型构建装置具有：生成部，其根据表示所收录的声音的参照信号而生成训练用的特征量的时间序列和训练用的时间变动成分的时间序列；第1训练部，其使用与所述所收录的声音相对应的训练用的第1控制数据和所述训练用的时间变动成分的时间序列，通过机器学习构建基于应当合成的目标合成音的第1控制数据而输出所述目标合成音的时间变动成分的第1推定模型；以及第2训练部，其使用与所述所收录的声音相对应的训练用的第2控制数据、训练用的时间变动成分的时间序列、及训练用的特征量的时间序列，通过机器学习构建基于所述目标合成音的第2控制数据和所述目标合成音的时间变动成分而输出所述目标合成音的特征量的时间序列的第2推定模型。

方式9涉及的程序使计算机作为如下功能部起作用：第1生成部，其使用以基于第1控制数据而输出时间变动成分的方式充分地训练得到的第1推定模型，基于应当合成的目标合成音的第1控制数据而生成所述目标合成音的时间变动成分；以及第2生成部，其使用以基于第2控制数据和时间变动成分而输出特征量的时间序列的方式充分地训练得到的第2推定模型，基于所述目标合成音的第2控制数据和所述目标合成音的时间变动成分而生成所述目标合成音的特征量的时间序列。

方式10涉及的程序使计算机作为如下功能部起作用：生成部，其根据表示所收录的声音的参照信号而生成训练用的特征量的时间序列和训练用的时间变动成分的时间序列；第1训练部，其使用与所述所收录的声音相对应的训练用的第1控制数据和所述训练用的时间变动成分的时间序列，通过机器学习构建基于应当合成的目标合成音的第1控制数据而输出所述目标合成音的时间变动成分的第1推定模型；以及第2训练部，其使用与所述所收录的声音相对应的训练用的第2控制数据、训练用的时间变动成分的时间序列、及训练用的特征量的时间序列，通过机器学习构建基于所述目标合成音的第2控制数据和所述目标合成音的时间变动成分而输出所述目标合成音的特征量的时间序列的第2推定模型。

本申请是基于2019年9月26日申请的日本申请(特愿2019-175436)的申请，在此通过参照而引入其内容。

工业实用性

本发明的信息处理方法、推定模型构建方法、信息处理装置及推定模型构建装置能够生成特征量的时间序列适当地包含时间变动成分的高音质的合成音。

标号的说明

100…声音合成装置

11…控制装置

12…存储装置

13…放音装置

20…合成处理部

21…第1生成部

22…第2生成部

23…第3生成部

24…控制数据生成部

25…信号合成部

26…声源部

30…学习处理部

31…第1训练部

32…第2训练部

33…第3训练部

34…训练数据准备部

341…控制数据生成部

342…频率解析部

343…变动提取部

344…噪声赋予部

M1…第1推定模型

M2…第2推定模型

M3…第3推定模型

Claims

1.一种信息处理方法，其中，

使用以基于第1控制数据而输出时间变动成分的方式训练得到的第1推定模型，将应当合成的目标合成音的第1控制数据进行处理，生成所述目标合成音的时间变动成分，

使用以基于第2控制数据和时间变动成分而输出特征量的时间序列的方式训练得到的第2推定模型，对所述目标合成音的第2控制数据和所述目标合成音的时间变动成分进行处理，生成所述目标合成音的特征量的时间序列。

2.根据权利要求1所述的信息处理方法，其中，

所述特征量的时间序列表示所述目标合成音的音高、音量及音色中的至少一个。

3.根据权利要求1或2所述的信息处理方法，其中，

在所述时间变动成分的生成中，生成所述目标合成音的与特征量的时间序列相关的时间变动成分。

4.根据权利要求3所述的信息处理方法，其中，

所述时间变动成分是与所述特征量的时间序列相关的微分值。

5.根据权利要求3所述的信息处理方法，其中，

所述时间变动成分是在所述特征量的时间序列中高于规定的频率的成分。

6.根据权利要求1至5中任一项所述的信息处理方法，其中，

使用以基于第3控制数据和特征量的时间序列而输出频率特性的方式训练得到的第3推定模型，对所述目标合成音的第3控制数据和所述目标合成音的特征量的时间序列进行处理，生成所述目标合成音的频率特性。

7.根据权利要求6所述的信息处理方法，其中，

所述目标合成音的频率特性是所述目标合成音的频谱或所述目标合成音的振幅谱包络。

8.根据权利要求6或7所述的信息处理方法，其中，

基于所述目标合成音的频率特性而生成音响信号。

9.一种推定模型构建方法，其中，

根据表示所收录的声音的参照信号，生成训练用的特征量的时间序列和训练用的时间变动成分的时间序列，

使用与所述所收录的声音相对应的训练用的第1控制数据和所述训练用的时间变动成分的时间序列，通过机器学习构建将应当合成的目标合成音的第1控制数据进行处理而输出所述目标合成音的时间变动成分的第1推定模型，

使用与所述所收录的声音相对应的训练用的第2控制数据、训练用的时间变动成分的时间序列、及训练用的特征量的时间序列，通过机器学习构建对所述目标合成音的第2控制数据和所述目标合成音的时间变动成分进行处理而输出所述目标合成音的特征量的时间序列的第2推定模型。

10.一种信息处理装置，其具有：

第1生成部，其使用以基于第1控制数据而输出时间变动成分的方式训练得到的第1推定模型，基于应当合成的目标合成音的第1控制数据而生成所述目标合成音的时间变动成分；以及

第2生成部，其使用以基于第2控制数据和时间变动成分而输出特征量的时间序列的方式训练得到的第2推定模型，基于所述目标合成音的第2控制数据和所述目标合成音的时间变动成分而生成所述目标合成音的特征量的时间序列。

11.一种推定模型构建装置，其具有：

生成部，其根据表示所收录的声音的参照信号而生成训练用的特征量的时间序列和训练用的时间变动成分的时间序列；

第1训练部，其使用与所述所收录的声音相对应的训练用的第1控制数据和所述训练用的时间变动成分的时间序列，通过机器学习构建基于应当合成的目标合成音的第1控制数据而输出所述目标合成音的时间变动成分的第1推定模型；以及

第2训练部，其使用与所述所收录的声音相对应的训练用的第2控制数据、训练用的时间变动成分的时间序列、及训练用的特征量的时间序列，通过机器学习构建基于所述目标合成音的第2控制数据和所述目标合成音的时间变动成分而输出所述目标合成音的特征量的时间序列的第2推定模型。