CN113016028A

CN113016028A - 音响处理方法及音响处理系统

Info

Publication number: CN113016028A
Application number: CN201980072998.7A
Authority: CN
Inventors: 大道龙之介
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2018-11-06
Filing date: 2019-11-06
Publication date: 2021-06-22
Also published as: JP6737320B2; EP3879521A1; US11842720B2; WO2020095951A1; EP3879521A4; US20210256959A1; JP2020076844A

Abstract

音响处理系统具有：学习处理部，其利用表示根据音响信号而确定的发音条件的第1条件数据和表示该音响信号所表示的音响的特征的第1特征数据，执行生成特征数据的训练好的合成模型的追加学习，该特征数据表示根据表示发音条件的条件数据以该发音条件发音出的音响的特征；指示接收部，其接收与音响信号相关的发音条件的变更指示；以及合成处理部，其通过将表示变更后的发音条件的第2条件数据输入至追加学习后的合成模型，从而生成第2特征数据。

Description

音响处理方法及音响处理系统

技术领域

本发明涉及对音响信号进行处理的技术。

背景技术

以往提出了与来自利用者的指示相应地对表示歌唱音或者演奏音等各种音响的音响信号进行编辑的技术。例如在非专利文献1中公开了通过针对每个音符对音响信号的音高及振幅进行解析而显示，从而接收由利用者对音响信号的编辑的技术。

非专利文献1：'What is Melodyne？'[平成30年10月21日检索]，网址<https://www.celemony.com/en/melodyne/what-is-melodyne>

发明内容

但是，基于现有技术，例如存在由于音高等发音条件的变更而音响信号的音质降低这样的问题。将以上的情况作为背景，本发明的一个方式的目的在于，对由与音响信号相关的发音条件的变更引起的音质的劣化进行抑制。

为了解决以上的课题，本发明的一个方式所涉及的音响处理方法，利用表示根据音响信号而确定的发音条件的第1条件数据和表示该音响信号所表示的音响的特征的第1特征数据，执行生成特征数据的事先训练好的合成模型的追加学习，该特征数据表示根据表示发音条件的条件数据以该发音条件发音出的音响的特征，接收与所述音响信号相关的发音条件的变更指示，通过将表示所述变更后的发音条件的第2条件数据输入至所述追加学习后的合成模型，从而生成第2特征数据。

本发明的一个方式所涉及的音响处理系统具有：学习处理部，其利用表示根据音响信号而确定的发音条件的第1条件数据和表示该音响信号所表示的音响的特征的第1特征数据，执行生成特征数据的训练好的合成模型的追加学习，该特征数据表示根据表示发音条件的条件数据以该发音条件发音出的音响的特征；指示接收部，其接收与所述音响信号相关的发音条件的变更指示；以及合成处理部，其通过将表示所述变更后的发音条件的第2条件数据输入至所述追加学习后的合成模型，从而生成第2特征数据。

本发明的一个方式所涉及的音响处理系统是具有大于或等于1个处理器和大于或等于1个存储器信息处理系统，通过执行在所述大于或等于1个存储器中存储的程序，所述大于或等于1个处理器进行下述动作：利用表示根据音响信号而确定的发音条件的第1条件数据和表示该音响信号所表示的音响的特征的第1特征数据，执行生成特征数据的事先训练好的合成模型的追加学习，该特征数据表示根据表示发音条件的条件数据以该发音条件发音出的音响的特征；接收与所述音响信号相关的发音条件的变更指示，通过将表示所述变更后的发音条件的第2条件数据输入至所述追加学习后的合成模型，从而生成第2特征数据。

附图说明

图1是例示第1实施方式所涉及的音响处理系统的结构的框图。

图2是例示音响处理系统的功能结构的框图。

图3是编辑画面的示意图。

图4是事先学习的说明图。

图5是例示事先学习的具体顺序的流程图。

图6是例示音响处理系统的动作的具体顺序的流程图。

图7是例示变形例中的音响处理系统的功能结构的框图。

具体实施方式

＜第1实施方式＞

图1是例示第1实施方式所涉及的音响处理系统100的结构的框图。第1实施方式的音响处理系统100是通过具有控制装置11、存储装置12、显示装置13、输入装置14和放音装置15的计算机系统实现的。例如移动电话、智能手机或者个人计算机等信息终端被利用为音响处理系统100。此外，音响处理系统100除了可以作为单体装置而实现以外，还可以通过相互地分体构成的多个装置的集合而实现。

控制装置11由对音响处理系统100的各要素进行控制的单个或者多个处理器构成。例如，控制装置11由CPU(Central Processing Unit)、SPU(Sound Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)或者ASIC(Application Specific Integrated Circuit)等大于或等于1种的处理器构成。存储装置12是由例如磁记录介质或者半导体记录介质等公知的记录介质构成的单个或者多个存储器，对由控制装置11执行的程序和由控制装置11使用的各种数据进行存储。此外，也可以通过多种记录介质的组合而构成存储装置12。另外，也可以将能够相对于音响处理系统100装卸的移动式的记录介质、或者能够经由通信网与音响处理系统100进行通信的外部记录介质(例如在线储存器)利用为存储装置12。

第1实施方式的存储装置12对音响信号V1进行存储，该音响信号V1表示与特定的乐曲相关的音响。在下面的说明中，设想表示由特定的歌唱者(以下称为“追加歌唱者”)通过乐曲的歌唱进行发音的歌唱音的音响信号V1。例如，将在音乐CD等记录介质中存储的音响信号V1、或者经由通信网接收到的音响信号V1存储于存储装置12。音响信号V1的文件形式是任意的。第1实施方式的控制装置11生成根据来自利用者的指示对与在存储装置12中存储的音响信号V1相关的各种条件(以下称为“歌唱条件”)进行变更后的音响信号V2。歌唱条件例如包含音高、音量和音位。

显示装置13对从控制装置11指示的图像进行显示。例如液晶显示面板被利用为显示装置13。输入装置14对由利用者实施的操作进行接收。例如由利用者进行操作的操作件、或者对针对显示装置13的显示面的接触进行检测的触摸面板被利用为输入装置14。放音装置15例如为扬声器或者耳机，对与由控制装置11生成的音响信号V2相对应的音响进行放音。

图2是例示通过由控制装置11执行在存储装置12中存储的程序而实现的功能的框图。第1实施方式的控制装置11实现信号解析部21、显示控制部22、指示接收部23、合成处理部24、信号生成部25和学习处理部26。此外，也可以通过相互分体构成的多个装置而实现控制装置11的功能。可以将控制装置11的功能的一部分或者全部由专用的电子电路实现。

信号解析部21对在存储装置12中存储的音响信号V1进行解析。具体地说，信号解析部21根据音响信号V1而生成表示音响信号V1所表示的歌唱音的歌唱条件的条件数据Xb和表示该歌唱音的特征的特征数据Q。第1实施方式的条件数据Xb是分别关于构成乐曲的多个音符将音高、音位(发音文字)和发音期间指定为歌唱条件的时间序列数据。例如生成依照MIDI(Musical Instrument Digital Interface)标准的形式的条件数据Xb。在通过信号解析部21生成条件数据Xb时任意地采用公知的解析技术(例如自动采谱技术)。此外，条件数据Xb并不限定于根据音响信号V1生成的数据。例如，也可以将由追加歌唱者歌唱出的乐谱的数据利用为条件数据Xb。

特征数据Q是表示音响信号V1所表示的音响的特征的数据。第1实施方式的特征数据Q包含基本频率(音调)Qa和频谱包络Qb。频谱包络Qb是音响信号V1的频谱的概略形状。特征数据Q是每隔规定长度(例如5毫秒)的单位期间而依次生成的。即，第1实施方式的信号解析部21生成基本频率Qa的时间序列和频谱包络Qb的时间序列。在通过信号解析部21生成特征数据Q时任意地采用离散傅立叶变换等公知的频率解析技术。

显示控制部22使显示装置13对图像进行显示。第1实施方式的显示控制部22使图3中例示出的编辑画面G显示在显示装置13。编辑画面G是为了对与音响信号V1相关的歌唱条件进行变更而由利用者视觉确认的图像。

在编辑画面G对相互正交的时间轴(横轴)和音高轴(纵轴)进行设定。在编辑画面G对音符图像Ga、音调图像Gb和波形图像Gc进行配置。

音符图像Ga是表示音响信号V1所表示的乐曲的音符的图像。显示控制部22与由信号解析部21生成的条件数据Xb相应地将音符图像Ga的时间序列配置于编辑画面G。具体地说，音高轴的方向上的各音符图像Ga的位置是与关于该音符图像Ga的音符由条件数据Xb指定的音高相应地设定的。另外，时间轴的方向上的各音符图像Ga的位置是与关于该音符图像Ga的音符由条件数据Xb指定的发音期间的端点(起点或者终点)相应地设定的。时间轴的方向上的各音符图像Ga的显示长度是与关于该音符图像Ga的音符由条件数据Xb指定的发音期间的持续长度相应地设定的。即，通过多个音符图像Ga的时间序列对音响信号V1的音符的时间序列进行钢琴卷轴显示。另外，在各音符图像Ga配置关于该音符图像Ga的音符由条件数据Xb指定的音位Gd。此外，音位Gd可以通过1个以上文字进行表现，也可以通过多个音素的组合进行表现。

音调图像Gb表示音响信号V1的基本频率Qa的时间序列。显示控制部22与由信号解析部21生成的特征数据Q的基本频率Qa相应地将音调图像Gb的时间序列配置于编辑画面G。波形图像Gc是表示音响信号V1的波形的图像。此外，在图3中在音高轴的方向上的确定位置配置有音响信号V1的波形图像Gc，但也可以将音响信号V1针对每个音符进行划分，将与各音符相对应的波形叠加于该音符的音符图像Ga而进行显示。即，可以将对音响信号V1进行划分后的各音符的波形在音高轴的方向上配置于与该音符的音高相对应的位置。

利用者通过一边对在显示装置13显示出的编辑画面G进行视觉确认、一边适当地操作输入装置14，从而能够将音响信号V1的歌唱条件适当地变更。例如，利用者通过将音符图像Ga在音高轴的方向进行移动，从而对该音符图像Ga所表示的音符的音高的变更进行指示。另外，利用者通过将音符图像Ga在时间轴的方向进行移动或者伸缩，从而对该音符图像Ga所表示的音符的发音期间(起点或者终点)的变更进行指示。利用者也能够对附加于音符图像Ga的音位Gd的变更进行指示。

图2的指示接收部23接收与音响信号V1相关的歌唱条件(例如音高、音位或者发音期间)的变更指示。第1实施方式的指示接收部23与从利用者接收到的指示相应地对由信号解析部21生成的条件数据Xb进行变更。即，由指示接收部23生成条件数据Xb，该条件数据Xb表示关于乐曲内的任意的音符与来自利用者的指示相应地进行了变更的歌唱条件(音高、音位或者发音期间)。

合成处理部24生成特征数据Q的时间序列，该特征数据Q表示与来自利用者的指示相应地对音响信号V1的歌唱条件进行变更后的音响信号V2的音响特征。特征数据Q包含音响信号V2的基本频率Qa和频谱包络Qb。特征数据Q是每隔规定长度(例如5毫秒)的单位期间而依次生成的。即，第1实施方式的合成处理部24生成基本频率Qa的时间序列和频谱包络Qb的时间序列。

信号生成部25根据由合成处理部24生成的特征数据Q的时间序列而生成音响信号V2。在利用了特征数据Q的时间序列的音响信号V的生成时，例如利用公知的声码器技术。具体地说，信号生成部25与频谱包络Qb相应地对基本频率Qa所对应的频谱中的针对每个频率的强度进行调整，将调整后的频谱变换为时间区域，由此生成音响信号V2。由信号生成部25生成的音响信号V2供给至放音装置15，由此该音响信号V2所表示的音响从放音装置15进行播放。即，与来自利用者的指示相应地对音响信号V1所表示的歌唱音的歌唱条件进行变更后的歌唱音从放音装置15进行播放。此外，为了方便起见而省略了将音响信号V2从数字变换为模拟的D/A变换器的图示。

在第1实施方式中，在通过合成处理部24生成特征数据Q时利用合成模型M。具体地说，合成处理部24通过将包含歌唱者数据Xa和条件数据Xb在内的输入数据Z输入至合成模型M，从而生成特征数据Q的时间序列。

歌唱者数据Xa是表示由歌唱者发音的歌唱音的音响性的特征(例如音质)的数据。第1实施方式的歌唱者数据Xa是多维的空间(以下称为“歌唱者空间”)中的嵌入向量(embedding vector)。歌唱者空间是与音响的特征相应地决定空间内的各歌唱者的位置的连续空间。在歌唱者之间音响的特征越类似，则歌唱者空间内的该歌唱者之间的距离成为越小的数值。如根据以上的说明所理解那样，歌唱者空间表现为对与音响的特征相关的歌唱者之间的关系进行表示的空间。此外，关于歌唱者数据Xa的生成在后面记述。

合成模型M是对输入数据Z和特征数据Q的关系进行了学习的统计性预测模型。第1实施方式的合成模型M由深层神经网络(DNN：Deep Neural Network)构成。具体地说，合成模型M是通过使控制装置11执行根据输入数据Z而生成特征数据Q这一运算的程序(例如构成人工智能软件的程序模块)和应用于该运算的多个系数的组合而实现的。对合成模型M进行规定的多个系数由利用了多个学习数据的机器学习(特别是深层学习)进行设定而保存于存储装置12。

学习处理部26通过机器学习对合成模型M进行训练。通过学习处理部26进行的机器学习被划分为事先学习(事先训练)和追加学习(追加训练)。事先学习是利用在存储装置12中存储的许多学习数据L1而生成合成模型M的基本的学习处理。另一方面，追加学习是利用与事先学习时的学习数据L1相比少量的学习数据L2在事先学习后追加地执行的学习处理。

图4是用于说明通过学习处理部26进行的事先学习的框图。在存储装置12中存储的多个学习数据L1被利用于事先学习。多个学习数据L1各自包含与已知的歌唱者相对应的识别信息F、条件数据Xb和音响信号V。已知的歌唱者基本上是与追加歌唱者不同的歌唱者。另外，在机器学习的结束判定中利用的评价用的学习数据(以下称为“评价用数据”)L1也存储于存储装置12。

识别信息F是用于对歌唱出音响信号V所表示的歌唱音的多个歌唱者各自进行识别的数值列。例如，将与不同的歌唱者相对应的多个要素之中的与特定的歌唱者相对应的要素设定为数值1、将剩余的要素设定为数值0的one-hot表现的数值列被利用为该特定的歌唱者的识别信息F。此外，关于识别信息F，也可以采用对one-hot表现中的数值1和数值0进行了置换的one-cold表现。识别信息F和条件数据Xb的组合针对每个学习数据L1而不同。

任意的1个学习数据L1所包含的音响信号V是表示由识别信息F所表示的已知的歌唱者歌唱出该学习数据L1的条件数据Xb所表示的乐曲的情况下的歌唱音的波形的信号。例如通过对由歌唱者实际歌唱出条件数据Xb所表示的乐曲的情况下的歌唱音进行收录，从而事先准备音响信号V。表示特性与追加歌唱者的歌唱音类似的多个已知的歌唱者的歌唱音的音响信号V分别包含于多个学习数据L1。即，表示与成为追加学习的对象的发音源同种的发音源(即，已知的歌唱者)的音响的音响信号V被利用于事先学习。

第1实施方式的学习处理部26与作为机器学习的本来目的的合成模型M一起将编码模型E一并进行训练。编码模型E是将歌唱者的识别信息F变换为该歌唱者的歌唱者数据Xa的编码器。编码模型E由例如深层神经网络构成。在事先学习中，将由编码模型E根据学习数据L1的识别信息F而生成的歌唱者数据Xa和该学习数据L1的条件数据Xb供给至合成模型M。如前所述，合成模型M将与歌唱者数据Xa和条件数据Xb相对应的特征数据Q的时间序列进行输出。此外，也可以将编码模型E由变换表构成。

信号解析部21根据各学习数据L1的音响信号V而生成特征数据Q。由信号解析部21生成的特征数据Q表示与由合成模型M生成的特征数据Q相同种类的特征量(即，基本频率Qa及频谱包络Qb)。特征数据Q的生成是每隔规定长度(例如5毫秒)的单位期间反复进行的。由信号解析部21生成的特征数据Q相当于与合成模型M的输出相关的已知的正确值。此外，也可以取代音响信号V而使根据音响信号V生成的特征数据Q包含于学习数据L1。因此，在事先学习中，省略通过信号解析部21进行的音响信号V的解析。

学习处理部26在事先学习中，反复地更新对合成模型M和编码模型E各自进行规定的多个系数。图5是例示由学习处理部26执行的事先学习的具体顺序的流程图。例如以来自利用者的针对输入装置14的指示为契机而开始事先学习。此外，关于执行事先学习后的追加学习在后面记述。

如果开始事先学习，则学习处理部26对在存储装置12中存储的多个学习数据L1的任意者进行选择(Sa1)。在刚刚开始事先学习时对最初的学习数据L1进行选择。学习处理部26将从存储装置12选择出的学习数据L1的识别信息F输入至暂定的编码模型E(Sa2)。编码模型E生成与识别信息F相对应的歌唱者数据Xa。事先学习开始的时刻的初始的编码模型E例如通过随机数等对各系数进行了初始化。

学习处理部26将包含由编码模型E生成的歌唱者数据Xa和学习数据L1的条件数据Xb在内的输入数据Z输入至暂定的合成模型M(Sa3)。合成模型M生成与输入数据Z相对应的特征数据Q。事先学习开始的时刻的初始的合成模型M例如通过随机数等对各系数进行了初始化。

学习处理部26对评价函数进行计算，该评价函数表示由合成模型M根据学习数据L1生成的特征数据Q和根据该学习数据L1的音响信号V由信号解析部21生成的特征数据Q(即，正确值)之间的误差(Sa4)。学习处理部26对合成模型M及编码模型E各自的多个系数进行更新，以使得评价函数接近规定值(典型情况为零)(Sa5)。在更新与评价函数相对应的多个系数时利用例如误差反向传播法。

学习处理部26对是否以规定的次数反复进行以上说明的更新处理(Sa2～Sa5)进行判定(Sa61)。在更新处理的反复次数低于规定值的情况下(Sa61：NO)，学习处理部26在从存储装置12对接下来的学习数据L进行选择(Sa1)后，关于该学习数据L执行更新处理(Sa2～Sa5)。即，关于多个学习数据L分别反复进行更新处理。

在更新处理(Sa2～Sa5)的次数到达规定值的情况下(Sa61：YES)，学习处理部26对由更新处理后的合成模型M生成的特征数据Q是否到达规定的品质进行判定(Sa62)。在评价特征数据Q的品质时利用在存储装置12中存储的前述的评价用数据L。具体地说，学习处理部26对由合成模型M根据评价用数据L生成的特征数据Q和根据评价用数据L的音响信号V由信号解析部21生成的特征数据Q(正确值)之间的误差进行计算。学习处理部26根据特征数据Q间的误差是否低于规定的阈值，对特征数据Q是否到达规定的品质进行判定。

在特征数据Q没有到达规定的品质的情况下(Sa62：NO)，学习处理部26开始反复进行规定的次数的更新处理(Sa2～Sa5)。如根据以上的说明所理解那样，在每次反复进行规定的次数的更新处理时对特征数据Q的品质进行评价。在特征数据Q到达规定的品质的情况下(Sa62：YES)，学习处理部26将该时刻的合成模型M确定为最终的合成模型M(Sa7)。即，最新的更新后的多个系数存储于存储装置12。通过以上的顺序确定出的训练好的合成模型M被利用于通过合成处理部24进行的特征数据Q的生成。另外，学习处理部26通过将各歌唱者的识别信息F输入至按照以上的顺序确定出的训练(学习)好的编码模型E，从而生成歌唱者数据Xa(Sa8)。在确定歌唱者数据Xa后将编码模型E废弃。此外，歌唱者空间是由事先学习的编码模型E构建的空间。

如根据以上的说明所理解那样，训练好的合成模型M基于在与各学习数据L相对应的输入数据Z和与该学习数据L的音响信号V相对应的特征数据Q之间潜在的倾向，能够针对未知的输入数据Z而生成在统计上妥当的特征数据Q。即，合成模型M对输入数据Z和特征数据Q之间的关系进行学习。另外，编码模型E对识别信息F和歌唱者数据Xa之间的关系进行学习，以使得合成模型M能够根据输入数据Z而生成在统计上妥当的特征数据Q。如果事先学习完成，则多个学习数据L1从存储装置12被废弃。

图6是例示包含通过学习处理部26进行的追加学习在内的音响处理系统100的整体的动作的具体顺序的流程图。在通过前述的事先学习进行合成模型M的训练后，以来自利用者的例如针对输入装置14的指示为契机而开始图6的处理。

如果开始图6的处理，则信号解析部21通过对在存储装置12中存储的追加歌唱者的音响信号V1进行解析而生成条件数据Xb和特征数据Q(Sb1)。学习处理部26通过利用了学习数据L2的追加学习而对合成模型M进行训练，该学习数据L2包含由信号解析部21根据音响信号V1生成的条件数据Xb和特征数据Q(Sb2－Sb4)。在存储装置12中存储的多个学习数据L2被利用于追加学习。学习数据L2的条件数据Xb是“第1条件数据”的一个例子，该学习数据L2的特征数据Q是“第1特征数据”的一个例子。

具体地说，学习处理部26将输入数据Z输入至事先训练好的合成模型M，该输入数据Z包含通过随机数等进行了初始化的追加歌唱者的歌唱者数据Xa和根据该追加歌唱者的音响信号V1生成的条件数据Xb(Sb2)。合成模型M生成与歌唱者数据Xa和条件数据Xb相对应的特征数据Q的时间序列。学习处理部26对评价函数进行计算，该评价函数表示由合成模型M生成的特征数据Q和根据学习数据L2的音响信号V1由信号解析部21生成的特征数据Q(即，正确值)之间的误差(Sb3)。学习处理部26对歌唱者数据Xa和合成模型M的多个系数进行更新，以使得评价函数接近规定值(典型情况为零)(Sb4)。在更新与评价函数相对应的多个系数时，与事先学习中的系数的更新同样地，例如利用误差反向传播法。歌唱者数据Xa及多个系数的更新(Sb4)被反复进行，直至能够由合成模型M生成足够品质的特征数据Q为止。通过以上的追加学习，对歌唱者数据Xa和合成模型M的多个系数进行确定。

如果执行以上说明的追加学习，则显示控制部22使图3的编辑画面G显示在显示装置13(Sb5)。在编辑画面G中，对由信号解析部21根据音响信号V1生成的条件数据Xb所表示的音符图像Ga的时间序列、表示由信号解析部21根据音响信号V1生成的基本频率Qa的时间序列的音调图像Gb、以及表示音响信号V1的波形的波形图像Gc进行配置。

利用者能够一边视觉确认编辑画面G，一边对音响信号V1的歌唱条件的变更进行指示。指示接收部23对是否从利用者指示了歌唱条件的变更进行判定(Sb6)。如果接收到歌唱条件的变更指示(Sb6：YES)，则指示接收部23与来自利用者的指示相应地对由信号解析部21生成的初始的条件数据Xb进行变更(Sb7)。

合成处理部24将输入数据Z输入至追加学习后的合成模型M，该输入数据Z包含通过指示接收部23进行变更后的条件数据Xb和追加歌唱者的歌唱者数据Xa(Sb8)。合成模型M生成与追加歌唱者的歌唱者数据Xa和条件数据Xb相对应的特征数据Q的时间序列。变更后的条件数据Xb是“第2条件数据”的一个例子，根据该条件数据xb的输入由合成模型M生成的特征数据Q是“第2特征数据”的一个例子。

信号生成部25根据由合成模型M生成的特征数据Q的时间序列而生成音响信号V2(Sb9)。显示控制部22将编辑画面G更新为对来自利用者的变更指示和利用追加学习后的合成模型M而得到的音响信号V2进行了反映的内容(Sb10)。具体地说，显示控制部22将音符图像Ga的时间序列更新为表示由利用者指示了变更后的歌唱条件的内容。另外，显示控制部22将由显示装置13显示的音调图像Gb更新为表示由信号生成部25生成的音响信号V2的基本频率Qa的时间序列的图像，将波形图像Gc更新为该音响信号V2的波形。

控制装置11对是否从利用者指示了歌唱音的播放进行判定(Sb11)。如果指示了歌唱音的播放(Sb11：YES)。则控制装置11通过将按照以上的顺序生成的音响信号V2供给至放音装置15，从而对歌唱音进行播放(Sb12)。即，将与由利用者变更后的歌唱条件相对应的歌唱音从放音装置15进行播放。此外，在没有指示歌唱条件的变更的情况下(Sb6：NO)，不执行条件数据Xb的变更(Sb7)、音响信号V2的生成(Sb8、Sb9)和编辑画面G的更新(Sb10)。因此，如果从利用者指示了歌唱音的播放(Sb11：YES)，则通过将在存储装置12中存储的音响信号V1供给至放音装置15而对歌唱音进行播放(Sb12)。在没有指示歌唱音的播放的情况下(Sb11：NO)，不对放音装置15供给音响信号V(V1、V2)。

控制装置11对是否从利用者指示了处理的结束进行判定(Sb13)。在没有指示处理的结束的情况下(Sb13：NO)，控制装置11将处理跳转至步骤Sb6，从利用者接收歌唱条件的变更指示。如根据以上的说明所理解那样，针对歌唱条件的每个变更指示，执行条件数据Xb的变更(Sb7)、利用了追加学习后的合成模型M的音响信号V2的生成(Sb8、Sb9)、以及编辑画面G的更新(Sb10)。

如以上说明所述，在第1实施方式中，关于事先训练好的合成模型M而执行利用了根据追加歌唱者的音响信号V1所确定的条件数据Xb和特征数据Q的追加学习，将表示变更后的歌唱条件的条件数据Xb输入至追加学习后的合成模型M，由此按照变更后的歌唱条件而生成由追加歌唱者发音的歌唱音的特征数据Q。因此，与根据由利用者发出的变更指示而直接地调整音响信号的现有结构相比较，能够抑制由歌唱条件的变更引起的音质的劣化。

另外，在第1实施方式中，利用音响信号V而生成事先训练好的合成模型M，该音响信号V表示与音响信号V2所表示的歌唱音的歌唱者(即，追加歌唱者)相同种类的发音源的歌唱音。因此，具有下述优点，即，即使在追加歌唱者的音响信号V1少的情况下，也能够高精度地生成按照变更后的歌唱条件发音出的歌唱音的特征数据Q。

＜第2实施方式＞

对第2实施方式进行说明。此外，关于在以下的各例示中功能与第1实施方式相同的要素，沿用在第1实施方式的说明中使用的标号而适当地省略各自的详细说明。

在第1实施方式中，利用通过事先学习而训练的编码模型E生成了追加歌唱者的歌唱者数据Xa。在生成歌唱者数据Xa后将编码模型E废弃的情况下，无法在追加学习的阶段再构建歌唱者空间。在第2实施方式中，在图5的步骤Sa8中不废弃编码模型E，使得能够再构建歌唱者空间。该情况下的追加学习例如以扩展合成模型M能够对应的条件数据Xb的范围等为目的而执行。下面，对利用合成模型M而进行追加歌唱者的追加学习的情况进行说明。在图5的处理之前，为了使得能够与其他歌唱者进行区分，对追加歌唱者分配唯一的识别信息F，并且通过图6的Sb1的处理，根据表示追加歌唱者的歌唱音的音响信号V1而生成条件数据Xb及特征数据Q，在存储装置12中作为学习数据L1的一部分而追加存储。

通过图5的步骤Sa1～Sa6的处理，执行利用了包含该条件数据Xb及特征数据Q在内的学习数据L1的追加学习，对合成模型M及编码模型E各自的多个系数进行更新的顺序与第1实施方式相同。即，在追加学习中，以反映追加歌唱者的歌唱音的特征的方式对合成模型M进行训练，并且再构建歌唱者空间。学习处理部26通过利用追加歌唱者的学习数据L1而对事先训练好的合成模型M进行再训练的处理，使得能够由合成模型M对追加歌唱者的歌唱音进行合成。

根据第2实施方式，通过追加某个歌唱者的音响信号V1，从而能够提高由合成模型M生成的多个歌唱者的歌唱的品质。另外，具有下述优点，即，即使在追加歌唱者的音响信号V1少的情况下，也能够由合成模型M高精度地生成追加歌唱者的歌唱音。

＜变形例＞

下面，例示对以上例示出的各方式附加的具体的变形方式。可以将从下面的例示中任意地选择出的2个以上的方式在不相互矛盾的范围适当地合并。

(1)在前述的各方式中，利用合成模型M生成了音响信号V2，但也可以并用利用了合成模型M进行的音响信号V2的生成和音响信号V1的直接调整。例如如图7所例示那样，控制装置11在与前述的各方式相同的要素的基础上还作为调整处理部31及信号合成部32起作用。调整处理部31通过与由利用者发出的歌唱条件的变更指示相应地对在存储装置12中存储的音响信号V1进行调整而生成音响信号V3。例如在利用者指示了特定音符的音高的变化的情况下，调整处理部31通过根据指示对音响信号V1之中的与该音符相对应的区间内的音高进行变更而生成音响信号V3。另外，在利用者指示了特定音符的发音期间的变更的情况下，调整处理部31通过将音响信号V1之中的与该音符相对应的区间在时间轴上进行伸缩而生成音响信号V3。进行音响信号V1的音高的变更或者时间上的伸缩时任意地采用公知的技术。信号合成部32通过将根据由合成模型M生成的特征数据Q而由信号生成部25生成的音响信号V2和由图7的调整处理部31生成的音响信号V3进行合成，从而生成音响信号V4。将由信号合成部32生成的音响信号V4供给至放音装置15。

信号合成部32对由信号生成部25生成的音响信号V2或者由调整处理部31生成的音响信号V3的音质进行评价，与评价的结果相应地对信号合成部32所涉及的音响信号V2和音响信号V3的混合比进行调整。音响信号V2或者音响信号V3的音质例如利用SN(Signal-to-Noise)比或者SD(Signal-to-Distortion)比等指标值进行评价。信号合成部32例如音响信号V2的音质越高，将音响信号V2相对于音响信号V3的混合比设定为越高的数值。因此，在音响信号V2的音质高的情况下，生成优势地反映出该音响信号V2的音响信号V4，在音响信号V2的音质低的情况下，生成优势地反映出音响信号V3的音响信号V4。另外，也可以与音响信号V2或者音响信号V3的音质相应地对音响信号V2及音响信号V3的任意者进行选择。例如，在音响信号V2的音质的指标超过阈值的情况下将该音响信号V2供给至放音装置15，在该指标低于阈值的情况下将音响信号V3供给至放音装置15。

(2)在前述的各方式中，生成了遍及乐曲的整体的音响信号V2，但也可以关于乐曲之中的由利用者指示了歌唱条件的变更的区间而生成音响信号V2，将该音响信号V2与音响信号V1进行合成。将音响信号V2相对于音响信号V1交叉渐入渐出(crossfade)，以使得在合成后的音响信号中音响信号V2的起点或者终点在听觉上不会被明确地察觉。

(3)在前述的各方式中，学习处理部26执行了事先学习及追加学习这两者，但也可以将事先学习和追加学习由独立的要素执行。例如，在关于通过由外部装置进行的事先学习而生成的合成模型M由学习处理部26执行追加学习的结构中，不需要通过学习处理部26进行的事先学习。例如，由能够与终端装置进行通信的机器学习装置(例如服务器装置)通过事先学习而生成合成模型M，将该合成模型M传送至终端装置。终端装置具有学习处理部26，该学习处理部26执行从机器学习装置传送来的合成模型M的追加学习。

(4)在前述的各方式中，对由歌唱者发音出的歌唱音进行了合成，但在除了歌唱音以外的音响的合成中也能应用本发明。例如在不以音乐为必要条件的会话音等一般性的说话声的合成、或者乐器的演奏音的合成中也能应用本发明。歌唱者数据Xa相当于表示除了歌唱者以外包含说话者或者乐器等在内的发音源的发音源数据的一个例子。另外，条件数据Xb作为表示除了歌唱条件以外包含说话条件(例如音位)或者演奏条件(例如音高及音量)在内的发音条件的数据而统括地表现。在与乐器的演奏相关的合成数据Xc中省略音位的指定。

(5)在前述的各方式中，例示出特征数据Q包含基本频率Qa和频谱包络Qb的结构，但特征数据Q的内容并不限定于以上的例示。例如，表示频谱的特征(以下称为“谱特征”)的各种数据也可以利用为特征数据Q。作为能够利用为特征数据Q的频谱特征，除了前述的频谱包络Qb以外，例如还例示出梅尔谱(Mel spectrum)、梅尔倒谱(Mel cepstrum)、梅尔频谱图(Mel spectrogram)或者频谱图(spectrogram)。此外，在将能够对基本频率Qa进行确定的谱特征利用为特征数据Q的结构中，也可以从特征数据Q将基本频率Qa省略。

(6)前述的各方式所涉及的音响处理系统100的功能是通过计算机(例如控制装置11)和程序的协同动作实现的。本发明的一个方式所涉及的程序以储存于计算机可读取的记录介质的方式提供而安装于计算机。记录介质例如是非易失性(non-transitory)的记录介质，CD-ROM等光学式记录介质(光盘)是优选例，但也可包含半导体记录介质或者磁记录介质等公知的任意形式的记录介质。此外，非易失性的记录介质包含除了暂时性的传输信号(transitory,propagating signal)以外的任意的记录介质，并不是将易失性的记录介质排除在外。另外，也能够通过经由通信网的传送的方式将程序提供给计算机。

(7)用于实现合成模型M的人工智能软件的执行主体并不限定于CPU。例如，TensorProcessing Unit或者Neural Engine等神经网络专用的处理电路、或者人工智能专用的DSP(Digital Signal Processor)可以执行人工智能软件。另外，可以是从以上的例示选择出的多种处理电路协同动作而执行人工智能软件。

＜附记＞

根据以上例示出的方式，例如掌握下面的结构。

本发明的一个方式(第1方式)所涉及的音响处理方法，利用表示根据音响信号而确定的发音条件的第1条件数据和表示该音响信号所表示的音响的特征的第1特征数据，执行生成特征数据的事先训练好的合成模型的追加学习，该特征数据表示根据表示发音条件的条件数据以该发音条件发音出的音响的特征，接收与所述音响信号相关的发音条件的变更指示，通过将表示所述变更后的发音条件的第2条件数据输入至所述追加学习后的合成模型，从而生成第2特征数据。在以上的方式中，关于合成模型而执行利用了表示根据音响信号所确定的发音条件的第1条件数据和该音响信号的第1特征数据的追加学习，将表示变更后的发音条件的第2条件数据输入至追加学习后的合成模型，由此生成以变更后的发音条件发音出的音响的第2特征数据。因此，与根据变更指示而直接地调整音响信号的现有结构相比较，能够抑制由发音条件的变更引起的音质的劣化。

在第1方式的具体例(第2方式)中，所述事先训练好的合成模型是通过机器学习而生成的模型，该机器学习利用了表示与所述音响信号所表示的音响的发音源相同种类的发音源的音响的信号。在以上的方式中，利用表示与音响信号所表示的音响的发音源相同种类的发音源的音响的信号而生成事先训练好的合成模型，因此能够高精度地生成以变更后的发音条件发音出的音响的第2特征数据。

在第1方式或第2方式的具体例(第3方式)中，在所述第2特征数据的生成中，将表示所述变更后的发音条件的所述第2条件数据、以及发音源数据输入至所述追加学习后的合成模型，该发音源数据表示在示出与音响的特征相关的发音源之间的关系的空间中的发音源的位置。

在第1方式至第3方式的任意方式的具体例(第4方式)中，所述发音条件包含音高，所述发音条件的变更指示是所述音高的变更指示。根据以上的方式，能够生成以变更后的音高发音出的高音质的音响的第2特征数据。

在第1方式至第4方式的任意方式的具体例(第5方式)中，所述发音条件包含发音期间，所述发音条件的变更指示是所述发音期间的变更指示。根据以上的方式，能够生成以变更后的发音期间发音出的高音质的音响的第2特征数据。

在第1方式至第5方式的任意方式的具体例(第6方式)中，所述发音条件包含音位，所述发音条件的变更指示是所述音位的变更指示。根据以上的方式，能够生成发音出变更后的音位的高音质的音响的第2特征数据。

作为执行以上例示出的各方式的音响处理方法的音响处理系统、或者使计算机执行以上例示出的各方式的音响处理方法的程序，也能实现本发明。

标号的说明

100…音响处理系统，11…控制装置，12…存储装置，13…显示装置，14…输入装置，15…放音装置，21…信号解析部，22…显示控制部，23…指示接收部，24…合成处理部，25…信号生成部，26…学习处理部，M…合成模型，Xa…歌唱者数据，Xb…条件数据，Z…输入数据，Q…特征数据，V1、V2…音响信号，F…识别信息，E…编码模型，L1、L2…学习数据。

Claims

1.一种音响处理方法，其是通过计算机实现的音响处理方法，

利用表示根据音响信号而确定的发音条件的第1条件数据和表示该音响信号所表示的音响的特征的第1特征数据，执行生成特征数据的事先训练好的合成模型的追加学习，该特征数据表示根据以条件数据表示的发音条件发音出的音响的特征，

接收与所述音响信号相关的发音条件的变更指示而变更该发音条件，

通过将表示所述变更后的发音条件的第2条件数据输入至所述追加学习后的合成模型，从而生成第2特征数据。

2.根据权利要求1所述的音响处理方法，其中，

所述事先训练好的合成模型是通过机器学习而生成的模型，该机器学习利用了表示与所述音响信号所表示的音响的发音源相同种类的发音源的音响的信号。

3.根据权利要求1或2所述的音响处理方法，其中，

所述第2特征数据是通过将表示所述变更后的发音条件的所述第2条件数据、以及发音源数据，输入至所述追加学习后的合成模型而生成的，该发音源数据表示在示出与音响的特征相关的发音源之间的关系的空间中的发音源的位置。

4.根据权利要求1至3中任一项所述的音响处理方法，其中，

所述发音条件包含音高，

所述发音条件的变更指示是所述音高的变更指示。

5.根据权利要求1至4中任一项所述的音响处理方法，其中，

所述发音条件包含发音期间，

所述发音条件的变更指示是所述发音期间的变更指示。

6.根据权利要求1至5中任一项所述的音响处理方法，其中，

所述发音条件包含音位，

所述发音条件的变更指示是所述音位的变更指示。

7.根据权利要求1至6中任一项所述的音响处理方法，其中，

所述音响处理方法还根据所生成的所述第2特征数据生成音响信号。

8.一种音响处理系统，其具有：

学习处理部，其利用表示根据音响信号而确定的发音条件的第1条件数据和表示该音响信号所表示的音响的特征的第1特征数据，执行生成特征数据的训练好的合成模型的追加学习，该特征数据表示根据表示发音条件的条件数据以该发音条件发音出的音响的特征；

指示接收部，其接收与所述音响信号相关的发音条件的变更指示；以及

合成处理部，其通过将表示所述变更后的发音条件的第2条件数据输入至所述追加学习后的合成模型，从而生成第2特征数据。

9.一种音响处理系统，其是具有大于或等于1个处理器和大于或等于1个存储器的信息处理系统，

通过执行在所述大于或等于1个存储器中存储的程序，所述大于或等于1个处理器进行下述动作：

利用表示根据音响信号而确定的发音条件的第1条件数据和表示该音响信号所表示的音响的特征的第1特征数据，执行生成特征数据的事先训练好的合成模型的追加学习，该特征数据表示根据表示发音条件的条件数据以该发音条件发音出的音响的特征，

接收与所述音响信号相关的发音条件的变更指示，