CN116504218A

CN116504218A - 声音合成方法、声音合成系统

Info

Publication number: CN116504218A
Application number: CN202310641326.1A
Authority: CN
Inventors: 大道龙之介
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2017-11-29
Filing date: 2018-11-28
Publication date: 2023-07-28
Also published as: US20230034572A1; JP2019101094A; JP6729539B2; WO2019107378A1; CN111418006A; US11495206B2; US20200294484A1; CN111418006B; EP3719796A1; EP3719796A4

Abstract

声音合成装置具有：中间训练好的模型，其生成与包含对音位进行指定的第1控制数据的输入相对应的第2控制数据；编辑处理部，其与来自利用者的第1指示相应地对第2控制数据进行变更；输出训练好的模型，其与包含第1控制数据和变更后的第2控制数据在内的输入相应地，生成与合成声音的频率特性相关的合成数据；以及合成处理部，其生成与合成数据相对应的声音信号。

Description

声音合成方法、声音合成系统

本申请是基于2018年11月28日提出的中国国家申请号201880077081.1申请(声音合成方法、声音合成装置及程序)的分案申请，以下引用其内容。

技术领域

本发明涉及对声音进行合成的技术。

背景技术

以往提出了对任意音位的声音进行合成的各种声音合成技术。例如在专利文献1中公开了下述技术，即，对歌唱声音进行合成，该歌唱声音是将由利用者针对编辑画面指示出的音符列发音得到的。编辑画面是设定有时间轴和音高轴的钢琴卷轴画面。利用者针对构成乐曲的每个音符，对音位(发音文字)、音高和发音期间进行指定。

专利文献1：日本特开2016－90916号公报

发明内容

但是，在专利文献1的技术中，利用者只是能够针对每个音符而指示音位、音高和发音期间，将利用者的意图或者嗜好精致地反映于合成声音在实际中并不容易。考虑以上的情况，本发明的优选方式的目的在于，生成依照利用者的意图或者嗜好的合成声音。

为了解决以上的课题，本发明的优选方式所涉及的声音合成方法为：通过中间训练好的模型而生成与包含对音位进行指定的第1控制数据的输入相对应的第2控制数据；与来自利用者的第1指示相应地对所述第2控制数据进行变更；与包含所述第1控制数据和所述变更后的所述第2控制数据在内的输入相应地，通过输出训练好的模型而生成与合成声音的频率特性相关的合成数据；以及生成与所述合成数据相对应的声音信号。

本发明的优选方式所涉及的声音合成装置具有：中间训练好的模型，其生成与包含对音位进行指定的第1控制数据的输入相对应的第2控制数据；编辑处理部，其与来自利用者的第1指示相应地对所述第2控制数据进行变更；输出训练好的模型，其与包含所述第1控制数据和所述变更后的所述第2控制数据在内的输入相应地，生成与合成声音的频率特性相关的合成数据；以及合成处理部，其生成与所述合成数据相对应的声音信号。

本发明的优选方式所涉及的程序使计算机作为下述部分起作用：中间训练好的模型，其与包含对音位进行指定的第1控制数据的输入相对应地生成第2控制数据；编辑处理部，其与来自利用者的第1指示相应地对所述第2控制数据进行变更；输出训练好的模型，其与包含所述第1控制数据和所述变更后的所述第2控制数据在内的输入相应地，生成与合成声音的频率特性相关的合成数据；以及合成处理部，其生成与所述合成数据相对应的声音信号。

附图说明

图1是例示本发明的第1实施方式所涉及的声音合成装置的结构的框图。

图2是例示声音合成装置的功能性的结构的框图。

图3是编辑画面的示意图。

图4是声音合成处理的流程图。

图5是例示第2实施方式所涉及的声音合成装置的功能性的结构的框图。

图6是第2实施方式中的声音合成处理的流程图。

具体实施方式

＜第1实施方式＞

图1是例示本发明的第1实施方式所涉及的声音合成装置100的结构的框图。声音合成装置100对任意音位的声音(以下称为“合成声音”)进行合成。第1实施方式的声音合成装置100是对由歌唱者虚拟地歌唱乐曲所发出的声音进行合成而作为合成声音的歌唱合成装置。如图1例示那样，第1实施方式的声音合成装置100通过具有控制装置11、存储装置12、操作装置13、显示装置14和放音装置15的计算机系统实现。例如移动电话或者智能手机等移动式的信息终端、或者个人计算机等移动式或者固定式的信息终端适合用作声音合成装置100。

显示装置14例如由液晶显示面板构成，对从控制装置11指示出的图像进行显示。操作装置13是接收来自利用者的指示的输入设备。具体地说，利用者能够操作的多个操作件、或者对针对显示装置14的显示面的接触进行检测的触摸面板适合被用作操作装置13。

控制装置11是例如CPU(Central Processing Unit)等处理电路，集中地对构成声音合成装置100的各要素进行控制。第1实施方式的控制装置11生成表示合成声音的波形的时间区域的声音信号V。放音装置15(例如扬声器或者耳机)对由控制装置11生成的声音信号V所表示的声音进行播放。此外，关于将由控制装置11生成的声音信号V从数字变换为模拟的D/A变换器和对声音信号V进行放大的放大器，为了方便起见而省略了图示。另外，在图1中例示出将放音装置15搭载于声音合成装置100的结构，但也可以将与声音合成装置100分体的放音装置15通过有线或者无线与声音合成装置100连接。

存储装置12由例如磁记录介质或者半导体记录介质等公知的记录介质、或者多种记录介质的组合构成，对由控制装置11执行的程序和由控制装置11使用的各种数据进行存储。此外，也可以准备与声音合成装置100分体的存储装置12(例如云储存器)，经由移动体通信网或者互联网等通信网而由控制装置11执行相对于存储装置12的写入及读出。即，也可以从声音合成装置100省略存储装置12。

存储装置12对表示乐曲的音乐性特征的控制数据C0进行存储。第1实施方式的控制数据C0是关于构成乐曲的多个音符分别对音高、音位和发音期间进行指定的乐曲数据。即，控制数据C0是用于音乐等级(即音乐性的要素)的控制的数据。换句话说控制数据C0是表示乐谱的数据。音高例如是MIDI(Musical Instrument Digital Interface)的音符编号。音位是通过合成声音进行发音的文字(即乐曲的歌词)。具体地说，音位是MIDI的文本事件。例如针对每个音符将1个音节作为音位进行指定。发音期间是乐曲的1个音符进行发音的期间，例如通过音符的开始点和结束点或者持续长度进行指定。此外，例如也可以通过MIDI的持续时间数据而指定发音期间。另外，第1实施方式的控制数据C0对演奏记号进行指定，该演奏记号表示乐曲的音乐性的表现。例如，强音(f)、钢琴(p)、渐强、渐弱、断续音、延缓重音或者连奏等演奏记号由控制数据C0进行指定。

图2是例示控制装置11的功能性的结构的框图。如图2例示那样，控制装置11通过执行在存储装置12中存储的程序，从而实现用于生成与控制数据C0相对应的声音信号V的多个功能(显示控制部21、编辑处理部E0、训练好的模型(Well-trained model)M1、编辑处理部E1、训练好的模型M2、编辑处理部E2、训练好的模型M3、编辑处理部E3及合成处理部22)。此外，也可以通过多个装置的集合(即系统)而实现控制装置11的功能，也可以将控制装置11的功能的一部分或者全部通过专用的电子电路(例如信号处理电路)实现。

显示控制部21使显示装置14显示图像。第1实施方式的显示控制部21将利用者为了对合成声音的调整进行指示所要参照的编辑画面在显示装置14进行显示。图3是编辑画面的示意图。如图3例示那样，编辑画面是包含多个编辑区域A(A0～A3)和多个操作部B(B0～B3)的图像。多个操作部B各自是接收来自利用者的指示的操作件的图像。另外，在多个编辑区域A(A0～A3)对共通的时间轴(横轴)进行设定。

编辑区域A0是表示音乐等级的控制数据C0的内容的图像(所谓的钢琴卷轴画面)。具体地说，在编辑区域A0中，将表示由控制数据C0指定的音符的音符图像(音符条)在包含时间轴和音高轴在内的坐标平面按照时间序列进行配置。时间轴上的各音符图像的位置及显示长度与由控制数据C0指定的发音期间相应地设定，音高轴上的音符图像的位置与由控制数据C0指定的音高相应地设定。在音符图像的内部对由控制数据C0指定的音位(具体地说是字素)进行显示。另外，在编辑区域A0中还对由控制数据C0指定的演奏记号进行显示。例如在图3中，渐强、强音及减弱作为演奏记号而例示出。利用者通过对操作装置13进行操作，从而能够赋予针对编辑区域A0的编辑指示Q0。编辑指示Q0例如是各音符的条件(发音期间、音高或者音位)的变更的指示、或者演奏记号的变更(追加或者删除)的指示。

编辑区域A1是表示音素等级(即与音素相关的要素)的特征，例如表示构成合成声音的多个音素(元音或者辅音)的时间序列的图像。具体地说，在编辑区域A1中，关于合成声音的多个音素分别对音素记号和发音期间进行显示。利用者通过对操作装置13进行操作，从而能够赋予针对编辑区域A1的编辑指示Q1。编辑指示Q1例如是各音素的音素记号的变更的指示，或者发音期间的变更(例如移动或者伸缩)的指示。

编辑区域A2是表示发音等级(即与发音相关的要素)的特征，例如表示赋予给合成声音的音乐表情的图像。具体地说，在编辑区域A2中，对合成声音中的被赋予音乐表情的期间(以下称为“表情期间”)和各表情期间中的表情的种类(以下称为“表情类别”)进行显示。作为赋予给合成声音的音乐表情，例示出声音嘶哑或者气息声等的音质、和颤音或者降调等发音技巧。利用者通过对操作装置13进行操作，从而能够赋予针对编辑区域A2的编辑指示Q2。编辑指示Q2例如是各表情期间的变更(例如移动或者伸缩)的指示，或者各表情期间中的表情类别的变更的指示。

编辑区域A3是表示声码器等级(Vocoder level)(即与声码器相关的要素)的特征，例如表示合成声音的频率特性的时间性的变化的图像。具体地说，在编辑区域A3中对表示合成声音的基本频率F0的时间性的变化的曲线进行显示。利用者通过对操作装置13进行操作，从而能够赋予针对编辑区域A3的编辑指示Q3。编辑指示Q3例如是基本频率F0的时间性的变化的变更的指示。

图2的编辑处理部E0与针对编辑区域A0的来自利用者的编辑指示Q0相应地对音乐等级的控制数据C0进行变更。具体地说，编辑处理部E0与编辑指示Q0相应地对由控制数据C0指定的各音符的条件(发音期间、音高或者音位)或者由控制数据C0指定的演奏记号进行变更。在赋予了编辑指示Q0的情况下，通过编辑处理部E0进行的变更后的控制数据C0供给至训练好的模型M1、训练好的模型M2和训练好的模型M3。另一方面，在没有赋予编辑指示Q0的情况下，在存储装置12中存储的控制数据C0供给至训练好的模型M1、训练好的模型M2和训练好的模型M3。

训练好的模型M1将与音乐等级的控制数据C0相对应的音素等级的控制数据C1输出。控制数据C1是与合成声音的音素相关的数据。具体地说，控制数据C1对与由控制数据C0指定的音位相对应的多个音素的时间序列进行指定。例如，控制数据C1关于构成合成声音的多个音素分别对音素记号(即音素的类别)和发音期间进行指定。各音素的发音期间例如通过开始点和结束点或者持续长度进行指定。

第1实施方式的训练好的模型M1是通过利用了使控制数据C0和控制数据C1相对应的多个教师数据的机器学习(特别是深层学习)，对控制数据C0和控制数据C1的关系进行学习(训练)得到的统计预测模型。例如，针对控制数据C0的输入而输出控制数据C1的神经网络适合用作训练好的模型M1。对训练好的模型M1进行规定的多个系数K1通过机器学习进行设定而存储于存储装置12。因此，基于从多个教师数据提取的倾向(控制数据C0和控制数据C1的关系)针对未知的控制数据C0而从训练好的模型M1输出统计上妥当的控制数据C1。显示控制部21与由训练好的模型M1生成的控制数据C1相应地使编辑区域A1在显示装置14进行显示。即，控制数据C1针对每个音素而指定的音素记号和发音期间在编辑区域A1进行显示。

编辑处理部E1将由训练好的模型M1输出的音素等级的控制数据C1与针对编辑区域A1的来自利用者的编辑指示Q1相应地变更。具体地说，编辑处理部E1将由控制数据C1针对每个音素指定的音素记号或者发音期间与编辑指示Q1相应地变更。显示控制部21将编辑区域A1更新为与变更后的控制数据C1相对应的内容。在赋予了编辑指示Q1的情况下，通过编辑处理部E1进行的变更后的控制数据C1供给至训练好的模型M2及训练好的模型M3，在没有赋予编辑指示Q1的情况下，由训练好的模型M1输出的控制数据C1供给至训练好的模型M2及训练好的模型M3。

训练好的模型M2输出与包含音乐等级的控制数据C0和音素等级的控制数据C1在内的输入数据D2相对应的发音等级的控制数据C2。控制数据C2是与合成声音的音乐表情相关的数据。具体地说，控制数据C2对时间轴上的大于或等于1个表情期间和各表情期间中的表情类别进行指定。各表情期间例如通过开始点和结束点或者持续长度进行指定。

第1实施方式的训练好的模型M2是通过利用了使输入数据D2和控制数据C2相对应的多个教师数据的机器学习(特别是深层学习)，对输入数据D2和控制数据C2的关系进行学习(训练)得到的统计预测模型。例如，针对输入数据D2的输入而输出控制数据C2的神经网络适合用作训练好的模型M2。对训练好的模型M2进行规定的多个系数K2通过机器学习进行设定而存储于存储装置12。因此，基于从多个教师数据提取的倾向(输入数据D2和控制数据C2的关系)，针对未知的输入数据D2而从训练好的模型M2输出统计上妥当的控制数据C2。显示控制部21与由训练好的模型M2生成的控制数据C2相应地使编辑区域A2在显示装置14进行显示。即，控制数据C2针对每个音素而指定的表情期间和表情类别在编辑区域A2进行显示。

编辑处理部E2将由训练好的模型M2输出的发音等级的控制数据C2与针对编辑区域A2的来自利用者的编辑指示Q2相应地变更。具体地说，编辑处理部E2将由控制数据C2指定的表情期间或者表情类别与编辑指示Q2相应地变更。显示控制部21将编辑区域A2更新为与变更后的控制数据C2相对应的内容。在赋予了编辑指示Q2的情况下，通过编辑处理部E2进行的变更后的控制数据C2供给至训练好的模型M3，在没有赋予编辑指示Q2的情况下，由训练好的模型M2输出的控制数据C2供给至训练好的模型M3。

训练好的模型M3输出与包含音乐等级的控制数据C0、音素等级的控制数据C1和发音等级的控制数据C2在内的输入数据D3相对应的声码器等级的控制数据C3(合成数据的例示)。控制数据C3是与合成声音的频率特性相关的数据。例如，控制数据C3对合成声音的基本频率F0的时间序列、谐波成分的包络线的时间序列和非谐波成分的包络线的时间序列进行指定。谐波成分的包络线是表示谐波成分的强度谱(振幅谱或者功率谱)的概略形状的曲线。谐波成分是由基本频率F0的基音成分和基本频率F0的整数倍的频率的多个泛音成分构成的周期成分。另一方面，非谐波成分的包络线是表示非谐波成分的强度谱的概略形状的曲线。非谐波成分是除了谐波成分以外的非周期成分(残差成分)。谐波成分及非谐波成分的包络线例如通过多个梅尔倒谱系数表现。

第1实施方式的训练好的模型M3是通过利用了使输入数据D3和控制数据C3相对应的多个教师数据的机器学习(特别是深层学习)，对输入数据D3和控制数据C3的关系进行学习得到的统计预测模型。例如针对输入数据D3的输入而输出控制数据C3的神经网络适合用作训练好的模型M3。对训练好的模型M3进行规定的多个系数K3通过机器学习进行设定而存储于存储装置12。因此，基于从多个教师数据提取的倾向(输入数据D3和控制数据C3的关系)针对未知的输入数据D3而从训练好的模型M3输出统计上妥当的控制数据C3。显示控制部21与由训练好的模型M3生成的控制数据C3相应地使编辑区域A3在显示装置14进行显示。即，由控制数据C3指定的基本频率F0的时间序列在编辑区域A3进行显示。

编辑处理部E3将由训练好的模型M3输出的声码器等级的控制数据C3与针对编辑区域A3的来自利用者的编辑指示Q3相应地变更。具体地说，编辑处理部E3将由控制数据C3指定的基本频率F0与编辑指示Q3相应地变更。显示控制部21将编辑区域A3更新为与变更后的控制数据C3相对应的内容。在赋予了编辑指示Q3的情况下，通过编辑处理部E3进行的变更后的控制数据C3供给至合成处理部22，在没有赋予编辑指示Q3的情况下，由训练好的模型M3输出的控制数据C3供给至合成处理部22。

合成处理部22生成与控制数据C3相对应的声音信号V。在通过合成处理部22进行声音信号V的生成时任意地采用公知的声音合成技术。例如，SMS(Spectral ModelSynthesis)适合用于声音信号V的生成。由合成处理部22生成的声音信号V供给至放音装置15而作为声波进行播放。如根据以上的说明所理解那样，合成处理部22相当于所谓的声码器。

如果与编辑指示Q0相应地由编辑处理部E0对音乐等级的控制数据C0进行了变更，则利用者使用操作装置13对图3的操作部B0进行操作。如果对操作部B0进行了操作，则关于变更后的控制数据C0，执行通过训练好的模型M1进行的控制数据C1的生成、通过训练好的模型M2进行的控制数据C2的生成、以及通过训练好的模型M3进行的控制数据C3的生成。

如果与编辑指示Q1相应地由编辑处理部E1对音素等级的控制数据C1进行了变更，则利用者使用操作装置13对操作部B1进行操作。如果对操作部B1进行了操作，则变更后的控制数据C1供给至训练好的模型M2及训练好的模型M3，执行通过训练好的模型M2进行的控制数据C2的生成和通过训练好的模型M3进行的控制数据C3的生成。在对操作部B1进行了操作的情况下，不执行通过训练好的模型M1进行的控制数据C1的生成，而是利用反映出编辑指示Q1的控制数据C1生成声音信号V。

如果与编辑指示Q2相应地由编辑处理部E2对发音等级的控制数据C2进行了变更，则利用者使用操作装置13对操作部B2进行操作。如果对操作部B2进行了操作，则变更后的控制数据C2供给至训练好的模型M3，执行通过训练好的模型M3进行的控制数据C3的生成。在对操作部B2进行了操作的情况下，不执行通过训练好的模型M1进行的控制数据C1的生成和通过训练好的模型M2进行的控制数据C2的生成，而是利用反映出编辑指示Q2的控制数据C2生成声音信号V。

图4是控制装置11生成声音信号V的处理(以下称为“声音合成处理”)的流程图。例如以针对声音合成装置100的来自利用者的指示为契机而执行声音合成处理。例如在对图3的操作部B3(播放)进行了操作的情况下执行声音合成处理。

如果开始声音合成处理，则编辑处理部E0与来自利用者的编辑指示Q0相应地对音乐等级的控制数据C0进行变更(Sa1)。在没有赋予编辑指示Q0的情况下，省略控制数据C0的变更。

训练好的模型M1与控制数据C0相应地生成与合成声音的音素相关的控制数据C1(Sa2)。编辑处理部E1与来自利用者的编辑指示Q1相应地对音素等级的控制数据C1进行变更(Sa3)。在没有赋予编辑指示Q1的情况下，省略控制数据C1的变更。

训练好的模型M2与包含控制数据C0和控制数据C1在内的输入数据D2相应地，生成与合成声音的音乐表情相关的控制数据C2(Sa4)。编辑处理部E2与来自利用者的编辑指示Q2相应地对发音等级的控制数据C2进行变更(Sa5)。在没有赋予编辑指示Q2的情况下，省略控制数据C2的变更。

训练好的模型M3与包含控制数据C0、控制数据C1和控制数据C2在内的输入数据D3相应地生成与合成声音的频率特性相关的控制数据C3(Sa6)。编辑处理部E3与来自利用者的编辑指示Q3相应地对声码器等级的控制数据C3进行变更(Sa7)。在没有赋予编辑指示Q3的情况下，省略控制数据C3的变更。合成处理部22生成与控制数据C3相对应的声音信号V(Sa8)。

如以上说明所述，在第1实施方式中，在从控制数据C0至生成控制数据C3为止的中途的阶段对来自利用者的指示(编辑指示Q1或者编辑指示Q2)进行反映，因此与利用者仅能够对控制数据C0进行编辑的结构相比较，具有下述优点，即，能够生成依照利用者的意图或者嗜好的合成声音的声音信号V。

在第1实施方式中，特别地与来自利用者的编辑指示Q1相应地对与合成声音的音素相关的控制数据C1进行变更。因此，能够生成与利用者的意图或者嗜好相应地将音素调整后的合成声音的声音信号V。另外，与来自利用者的编辑指示Q2相应地对与合成声音的表情相关的控制数据C2进行变更。因此，能够生成与利用者的意图或者嗜好相应地将音乐表情调整后的合成声音的声音信号。另外，与来自利用者的编辑指示Q3相应地对控制数据C3进行变更。因此，能够生成与利用者的意图或者嗜好相应地调整频率特性后的合成声音的声音信号V。

＜第2实施方式＞

对本发明的第2实施方式进行说明。此外，在以下例示的各方式中对作用或者功能与第1实施方式相同的要素，沿用与在第1实施方式的说明中使用的标号而适当地省略各自的详细说明。

图5是例示第2实施方式中的控制装置11的功能性的结构的框图。如图5例示那样，在第1实施方式中例示出的训练好的模型M1、编辑处理部E1、训练好的模型M2和编辑处理部E2在第2实施方式中被置换为训练好的模型M12和编辑处理部E12。通过编辑处理部E0进行的编辑后的控制数据C0供给至训练好的模型M12。

训练好的模型M12输出与音乐等级的控制数据C0相对应的音素·发音等级的控制数据C12。控制数据C12是与合成声音的音素和音乐表情相关的数据。具体地说，控制数据C12对与由控制数据C0指定的音位相对应的各音素的音素记号及发音期间和向合成声音赋予表情的表情期间及表情类别进行指定。即，第2实施方式的控制数据C12是将第1实施方式中的控制数据C1和控制数据C2合并得到的数据。

第2实施方式的训练好的模型M12是通过利用了使控制数据C0和控制数据C12相对应的多个教师数据的机器学习(特别是深层学习)，对控制数据C0和控制数据C12的关系进行学习得到的统计预测模型。例如针对控制数据C0的输入而输出控制数据C12的神经网络适合用作训练好的模型M12。对训练好的模型M12进行规定的多个系数通过机器学习进行设定而存储于存储装置12。因此，基于从多个教师数据提取的倾向(控制数据C0和控制数据C12的关系)，针对未知的控制数据C0而从训练好的模型M12输出统计上妥当的控制数据C12。显示控制部21与由训练好的模型M12生成的控制数据C12相应地使编辑区域A1及编辑区域A2在显示装置14进行显示。

编辑处理部E12与针对编辑区域A1的来自利用者的编辑指示Q1或者针对编辑区域A2的来自利用者的编辑指示Q2相应地对由训练好的模型M12输出的音素·发音等级的控制数据C12进行变更。具体地说，编辑处理部E12与编辑指示Q1相应地对由控制数据C12针对每个音素指定的音素记号及发音期间进行变更，与编辑指示Q2相应地对由控制数据C12指定的表情期间及表情类别进行变更。显示控制部21将编辑区域A1及编辑区域A2更新为与变更后的控制数据C12相对应的内容。在赋予了编辑指示Q1或者编辑指示Q2的情况下，将通过编辑处理部E12进行的变更后的控制数据C12供给至训练好的模型M3，在没有赋予编辑指示Q1或者编辑指示Q2的情况下，将由训练好的模型M12输出的控制数据C12供给至训练好的模型M3。

第2实施方式的训练好的模型M3输出与包含音乐等级的控制数据C0和音素·发音等级的控制数据C12在内的输入数据D3相对应的声码器等级的控制数据C3(合成数据的例示)。训练好的模型M3针对输入数据D3的输入而输出控制数据C3的具体的动作与第1实施方式相同。另外，与第1实施方式同样地，编辑处理部E3与来自利用者的编辑指示Q3相应地对控制数据C3进行变更，合成处理部22生成与控制数据C3相对应的声音信号V。

图6是第2实施方式中的声音合成处理的流程图。例如以针对声音合成装置100的来自利用者的指示为契机而执行声音合成处理。例如在对图3的操作部B3(播放)进行了操作的情况下执行声音合成处理。

如果开始声音合成处理，则编辑处理部E0与来自利用者的编辑指示Q0相应地对音乐等级的控制数据C0进行变更(Sb1)。在没有赋予编辑指示Q0的情况下，省略控制数据C0的变更。

训练好的模型M12与控制数据C0相应地生成与合成声音的音素相关的控制数据C12(Sb2)。编辑处理部E12与来自利用者的编辑指示Q1或者编辑指示Q2相应地对音素·发音等级的控制数据C12进行变更(Sb3)。在没有赋予编辑指示Q1或者编辑指示Q2的情况下，省略控制数据C12的变更。

训练好的模型M3与包含控制数据C0和控制数据C12在内的输入数据D3相应地，生成与合成声音的频率特性相关的控制数据C3(Sb4)。编辑处理部E3与来自利用者的编辑指示Q3相应地对声码器等级的控制数据C3进行变更(Sb5)。在没有赋予编辑指示Q3的情况下，省略控制数据C3的变更。合成处理部22生成与控制数据C3相对应的声音信号V(Sb6)。

在第2实施方式中，在从控制数据C0至生成控制数据C3为止的中途的阶段对来自利用者的指示(编辑指示Q1或者编辑指示Q2)进行反映，因此与第1实施方式同样地，与利用者仅能够对控制数据C0进行编辑的结构相比较，具有下述优点，即，能够生成依照利用者的意图或者嗜好的合成声音的声音信号V。在第2实施方式中，特别地与来自利用者的编辑指示Q1或者编辑指示Q2相应地对与合成声音的音素及表情相关的控制数据C12进行变更。因此，还具有下述优点，即，能够生成与利用者的意图或者嗜好相应地调整音素或者表情后的合成声音的声音信号V。

＜变形例＞

以下例示对以上例示出的各方式附加的具体变形的方式。

(1)例如可以通过经由移动体通信网或者互联网等通信网与终端装置(例如移动电话机或者智能手机)进行通信的服务器装置而实现声音合成装置100。具体地说，声音合成装置100通过声音合成处理(图4或者图6)而生成针对从终端装置接收到的控制数据C0的声音信号V，将该声音信号V发送至终端装置。终端装置的放音装置15对从声音合成装置100接收到的声音信号V所表示的声音进行播放。此外，也可以将由声音合成装置100的编辑处理部E3生成的控制数据C3发送至终端装置，在终端装置设置的合成处理部22根据控制数据C3而生成声音信号V。即，合成处理部22从声音合成装置100被省略。另外，也可以是将由搭载于终端装置的编辑处理部E0生成的控制数据C0发送至声音合成装置100，将与该控制数据C0相应地生成的声音信号V从声音合成装置100发送至终端装置。即，编辑处理部E0从声音合成装置100被省略。在通过服务器装置实现了声音合成装置100的结构中，显示控制部21使图3的编辑画面在终端装置的显示装置14进行显示。

(2)前述的各方式所涉及的声音合成装置100如各方式中的例示那样，是通过计算机(具体地说是控制装置11)和程序的协同动作而实现的。前述的各方式所涉及的程序以收容于计算机可读取的记录介质中的方式被提供而安装于计算机。记录介质例如是非易失性(non-transitory)的记录介质，优选例为CD-ROM等光学式记录介质(光盘)，但包含半导体记录介质或者磁记录介质等公知的任意形式的记录介质。此外，非易失性的记录介质包含除了暂时性的传输信号(transitory,propagating signal)以外的任意的记录介质，并不是将易失性的记录介质排除在外。另外，也可以通过经由通信网的传送的方式将程序传送至计算机。另外，程序的执行主体并不限定于CPU，也可以由Tensor Processing Unit及Neural Engine等神经网络用的处理器或者信号处理用的DSP(Digital SignalProcessor)执行程序。另外，也可以是从以上的例示选择出的多种主体协同动作而执行程序。

(3)训练好的模型是通过使控制装置11执行根据输入A而确定输出B的运算的程序(例如构成人工智能软件的程序模块)和应用于该运算的多个系数的组合而实现的。训练好的模型的多个系数通过利用了使输入A和输出B相对应的多个教师数据的事先的机器学习(特别是深层学习)而得到优化。即，训练好的模型是对输入A和输出B的关系进行学习(训练)得到的统计模型。控制装置11通过针对未知的输入A而执行应用了训练好的多个系数和规定的响应函数的运算，从而基于从多个教师数据提取的倾向(输入A和输出B的关系)而针对输入A统计性地生成妥当的输出B。

(4)根据以上例示出的方式，例如可掌握以下的结构。

本发明的优选方式(第1方式)所涉及的声音合成方法，其通过中间训练好的模型而生成与包含对音位进行指定的第1控制数据的输入相对应的第2控制数据，与来自利用者的第1指示相应地对所述第2控制数据进行变更，与包含所述第1控制数据和所述变更后的所述第2控制数据在内的输入相应地，通过输出训练好的模型而生成与合成声音的频率特性相关的合成数据，生成与所述合成数据相对应的声音信号。在以上的方式中，在从第1控制数据至生成合成数据为止的中途的阶段对来自利用者的第1指示进行反映，因此与利用者仅能够对第1控制数据进行编辑的结构相比较，能够生成表示依照利用者的意图或者嗜好的合成声音的声音信号。

例如第1实施方式中的训练好的模型M1或者训练好的模型M2及第2实施方式中的训练好的模型M12是第1方式中的“中间训练好的模型”的优选例。在将第1实施方式的训练好的模型M1解释为“中间训练好的模型”的情况下，控制数据C1相当于“第2控制数据”，编辑指示Q1相当于“第1指示”。在将第1实施方式的训练好的模型M2解释为“中间训练好的模型”的情况下，控制数据C2相当于“第2控制数据”，编辑指示Q2相当于“第1指示”。在将第2实施方式的训练好的模型M12解释为“中间训练好的模型”的情况下，控制数据C12相当于“第2控制数据”，编辑指示Q1或者编辑指示Q2相当于“第1指示”。另外，第1实施方式或者第2实施方式中的训练好的模型M3是“输出训练好的模型”的一个例子。

在第1方式的优选例(第2方式)中，所述中间训练好的模型是与包含所述第1控制数据的输入相应地生成所述第2控制数据的第1训练好的模型，所述第2控制数据是与所述合成声音的音素相关的数据。在以上的方式中，将与合成声音的音素相关的第2控制数据与来自利用者的第1指示相应地进行变更。因此，能够生成与利用者的意图或者嗜好相应地将音素调整后的合成声音的声音信号。第2方式中的“第1训练好的模型”的优选例为例如第1实施方式中的“训练好的模型M1”。

在第2方式的优选例(第3方式)中，与包含所述第1控制数据和所述变更后的第2控制数据在内的输入相应地，通过第2训练好的模型而生成与所述合成声音的表情相关的第3控制数据，与来自利用者的第2指示相应地对所述第3控制数据进行变更，在所述合成数据的生成时，与包含所述第1控制数据、所述变更后的所述第2控制数据和所述变更后的第3控制数据在内的输入相应地生成所述合成数据。在以上的方式中，与合成声音的表情相关的第3控制数据与来自利用者的第2指示相应地进行变更。因此，能够生成与利用者的意图或者嗜好相应地调整表情后的合成声音的声音信号。第3方式中的“第2训练好的模型”的优选例是例如第1实施方式中的训练好的模型M2，第3方式中的“第3控制数据”的优选例是例如第1实施方式中的控制数据C2。

在第1方式的优选例(第4方式)中，所述第2控制数据是与所述合成声音的音素及表情相关的数据。在以上的方式中，与合成声音的音素及表情相关的第2控制数据与来自利用者的第1指示相应地进行变更。因此，能够生成与利用者的意图或者嗜好相应地将音素及表情调整后的合成声音的声音信号。第4方式中的“中间训练好的模型”的优选例是例如第2实施方式中的训练好的模型M12，第4方式中的“第1指示”的优选例是例如第2实施方式中的编辑指示Q1或者编辑指示Q2。

在第1方式至第4方式的任意的优选例(第5方式)中，与来自利用者的第3指示相应地对所述合成数据进行变更，在所述声音信号的生成时，与所述变更后的合成数据相应地生成所述声音信号。在以上的方式中，与来自利用者的第3指示相应地对合成数据进行变更。因此，能够生成与利用者的意图或者嗜好相应地将频率特性调整后的合成声音的声音信号。第5方式中的“第3指示”的优选例是例如第1实施方式或者第2实施方式中的编辑指示Q3。

本发明的优选方式(第6方式)所涉及的声音合成装置，其具有：中间训练好的模型，其生成与包含对音位进行指定的第1控制数据的输入相对应的第2控制数据；编辑处理部，其与来自利用者的第1指示相应地对所述第2控制数据进行变更；输出训练好的模型，其与包含所述第1控制数据和所述变更后的所述第2控制数据在内的输入相应地，生成与合成声音的频率特性相关的合成数据；以及合成处理部，其生成与所述合成数据相对应的声音信号。在以上的方式中，在从第1控制数据至生成合成数据为止的中途的阶段对来自利用者的第1指示进行反映，因此与利用者仅能够对第1控制数据进行编辑的结构相比较，能够生成表示依照利用者的意图或者嗜好的合成声音的声音信号。

本发明的优选方式(第7方式)所涉及的程序，其使计算机作为下述部分起作用：中间训练好的模型，其与包含对音位进行指定的第1控制数据的输入相对应地生成第2控制数据；编辑处理部，其与来自利用者的第1指示相应地对所述第2控制数据进行变更；输出训练好的模型，其与包含所述第1控制数据和所述变更后的所述第2控制数据在内的输入相应地，生成与合成声音的频率特性相关的合成数据；以及合成处理部，其生成与所述合成数据相对应的声音信号。在以上的方式中，在从第1控制数据至生成合成数据为止的中途的阶段对来自利用者的第1指示进行反映，因此与利用者仅能够对第1控制数据进行编辑的结构相比较，能够生成表示依照利用者的意图或者嗜好的合成声音的声音信号。

标号的说明

100…声音合成装置，11…控制装置，12…存储装置，13…操作装置，14…显示装置，15…放音装置，21…显示控制部，22…合成处理部，E0、E1、E2、E3、E12…编辑处理部，M1、M2、M3、M12…训练好的模型，Q0、Q1、Q2、Q3…编辑指示，A0、A1、A2、A3…编辑区域，B0、B1、B2、B3…操作部。

Claims

1.一种声音合成方法，其是通过计算机实现的，

将在时间轴上表示对音位进行指定的第1控制数据的第1图像显示于显示装置，

根据所述第1控制数据生成表示与所述音位对应的音素的时间序列的第2控制数据，

将表示所述第2控制数据的第2图像显示于所述显示装置，

与来自利用者的第1指示相应地对所述第2控制数据进行变更，

与所述第1控制数据和所述第2控制数据相对应地生成合成声音的声音信号。

2.根据权利要求1所述的声音合成方法，其中，

所述第2控制数据是通过将所述第1控制数据包含于输入的第1训练好的模型而生成的。

3.根据权利要求1所述的声音合成方法，其中，

与所述第1控制数据和所述第2控制数据对应地，生成表示与所述合成声音相关的音乐表情的第3控制数据，

将在时间轴上表示所生成的所述第3控制数据的第3图像显示于所述显示装置，

与来自利用者的第2指示相应地对所述第3控制数据进行变更，

与所述第1控制数据、变更后的所述第2控制数据和变更后的所述第3控制数据对应地，生成所述声音信号。

4.根据权利要求3所述的声音合成方法，其中，

通过将所述第1控制数据包含于输入的第1训练好的模型生成所述第2控制数据，

通过将所述第1控制数据和变更后的所述第2控制数据包含于输入的第2训练好的模型生成所述第3控制数据。

5.根据权利要求3所述的声音合成方法，其中，

与所述第1控制数据、变更后的所述第2控制数据和变更后的所述第3控制数据对应地，生成与所述合成声音的频率特性相关的合成数据，

将在时间轴上表示所生成的所述合成数据的第4图像显示于所述显示装置，

与来自所述利用者的第3指示对应地对所述合成数据进行变更，

与变更后的所述合成数据对应地生成所述声音信号。

6.根据权利要求5所述的声音合成方法，其中，

通过将所述第1控制数据和变更后的所述第2控制数据包含于输入的第2训练好的模型生成所述第3控制数据，

通过将所述第1控制数据、变更后的所述第2控制数据和变更后的所述第3控制数据包含于输入的第3训练好的模型生成所述合成数据。

7.一种声音合成系统，其具备存储装置和控制装置，

所述控制装置通过执行在所述存储装置中存储的程序而执行下述处理：

第一显示处理，其将在时间轴上表示对音位进行指定的第1控制数据的第1图像显示于显示装置；

第一生成处理，其根据所述第1控制数据生成表示与所述音位对应的音素的时间序列的第2控制数据；

第二显示处理，其将表示所述第2控制数据的第2图像显示于所述显示装置；

第一变更处理，其与来自利用者的第1指示相应地对所述第2控制数据进行变更；以及，

第二生成处理，其与所述第1控制数据和所述第2控制数据相对应地生成合成声音的声音信号。

8.根据权利要求7所述的声音合成系统，其中，

在所述第一生成处理中，通过将所述第1控制数据包含于输入的第1训练好的模型而生成所述第2控制数据。

9.根据权利要求7所述的声音合成系统，还执行下述处理，

第三生成处理，其与所述第1控制数据和所述第2控制数据对应地，生成表示与所述合成声音相关的音乐表情的第3控制数据，

第三显示处理，其将在时间轴上表示所生成的所述第3控制数据的第3图像显示于所述显示装置，

第二变更处理，其与来自利用者的第2指示相应地对所述第3控制数据进行变更，

在所述第二生成处理中，与所述第1控制数据、变更后的所述第2控制数据和变更后的所述第3控制数据对应地，生成所述声音信号。

10.根据权利要求9所述的声音合成系统，其中，

在所述第一生成处理中，通过将所述第1控制数据包含于输入的第1训练好的模型生成所述第2控制数据，

在所述第三生成处理中，通过将所述第1控制数据和变更后的所述第2控制数据包含于输入的第2训练好的模型生成所述第3控制数据。

11.根据权利要求9所述的声音合成系统，其中，

在所述第二生成处理中，与所述第1控制数据、变更后的所述第2控制数据和变更后的所述第3控制数据对应地，生成与所述合成声音的频率特性相关的合成数据，

与变更后的所述合成数据对应地生成所述声音信号。

12.根据权利要求11所述的声音合成系统，其中，

在所述第三生成处理中，通过将所述第1控制数据和变更后的所述第2控制数据包含于输入的第2训练好的模型生成所述第3控制数据，

在所述第二生成处理中，通过将所述第1控制数据、变更后的所述第2控制数据和变更后的所述第3控制数据包含于输入的第3训练好的模型生成所述合成数据。