CN109416911B

CN109416911B - 声音合成装置及声音合成方法

Info

Publication number: CN109416911B
Application number: CN201780040606.XA
Authority: CN
Inventors: 久凑裕司; 大道龙之介; 才野庆二郎; 若尔迪·博纳达; 梅利因·布洛乌
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2016-06-30
Filing date: 2017-06-28
Publication date: 2023-07-21
Anticipated expiration: 2037-06-28
Also published as: CN109416911A; EP3480810A1; WO2018003849A1; JP6821970B2; US11289066B2; US20190130893A1; JP2018004870A; EP3480810A4

Abstract

声音合成方法具有：取得步骤，依次取得与声音的合成指示对应的多个声音片段；生成步骤，通过统计模型生成与合成指示对应的统计频谱包络；以及合成步骤，将依次取得的多个声音片段相互连接，并且，与生成的统计频谱包络对应地对各声音片段的频谱包络进行变更，基于具有变更后的频谱的连接后的声音片段，对声音信号进行合成。

Description

声音合成装置及声音合成方法

技术领域

本发明涉及对声音进行合成的技术。

背景技术

当前，提出了对任意音位(发音内容)的声音进行合成的声音合成的技术。例如在专利文献1中，公开了一种通过将多个声音片段中的与目标音位对应地选择出的声音片段相互连接而生成合成声音的片段连接型的声音合成。另外，在专利文献2中，公开了如下统计模型型的声音合成，即，通过利用HMM(Hidden Markov Model)生成表现声道特性的频谱参数的系列，通过与频谱参数对应的频率特性的合成滤波器对激励信号进行处理，由此生成合成声音。

专利文献1：日本特开2007-240564号公报

专利文献2：日本特开2002-268660号公报

发明内容

另外，不仅要求合成标准的发音特质的声音，还要求合成例如发音较强的声音或者发音平稳的声音等多种发音特质的声音。在片段连接型的声音合成中，为了合成多种发音特质的声音，需要针对每个发音特质而个别地准备多个声音片段的集合(声音合成用库)。因此，为了保存声音片段而需要充分的存储容量。另一方面，在统计模型型的声音合成中利用统计模型推定的频谱是在学习过程中将多个频谱平均得出的频谱，与片段连接型的声音片段相比，时间分辨率及频率分辨率低。因此，高品质的合成声音的生成是困难的。考虑到上面的情况，本发明的目的在于削减声音合成所需要的存储容量，并生成期望的发音特质的高品质的合成声音。

为了解决上面的课题，本发明优选的方式涉及的声音合成方法具有：取得步骤，依次取得与声音的合成指示对应的多个声音片段；生成步骤，通过统计模型生成与所述合成指示对应的统计频谱包络；以及合成步骤，将所述依次取得的多个声音片段相互连接，并且，与所述生成的统计频谱包络对应地对各声音片段的频谱包络进行变更，基于具有所述变更后的频谱的所述连接后的声音片段，对声音信号进行合成。

本发明优选的方式涉及的声音合成装置具有：片段取得部，其依次取得与声音的合成指示对应的多个声音片段；包络生成部，其通过统计模型生成与所述合成指示对应的统计频谱包络；以及声音合成部，其将所述依次取得的多个声音片段相互连接，并且，与所述生成的统计频谱包络对应地对所述各声音片段的频谱包络进行变更，基于具有所述变更后的频谱的所述连接后的声音片段，对声音信号进行合成。

附图说明

图1是第1实施方式中的声音合成装置的框图。

图2是声音合成装置的动作的说明图。

图3是声音合成装置的功能性框图。

图4是特性调整处理的流程图。

图5是声音合成处理的流程图。

图6是第2实施方式中的声音合成装置的功能性框图。

图7是变形例中的声音合成部的框图。

图8是变形例中的声音合成部的框图。

具体实施方式

<第1实施方式>

图1是本发明的第1实施方式涉及的声音合成装置100的框图。

第1实施方式的声音合成装置100是对期望的音位(发音内容)的声音进行合成的信号处理装置，是利用具有控制装置12、存储装置14、输入装置16以及放音装置18的计算机系统而实现的。例如移动电话机或智能手机等便携型的终端装置、或者个人计算机等便携型或安置型终端装置能够作为声音合成装置100利用。第1实施方式的声音合成装置100生成歌唱了特定的乐曲(下面称为“乐曲A”)的声音的音响信号V。此外，声音合成装置100除了作为单体的装置而实现以外，也可以以彼此独立构成的多个装置的集合(即计算机系统)而实现。

控制装置12包含例如CPU(Central Processing Unit)等处理电路而构成，对声音合成装置100的各要素集中地进行控制。输入装置16是接受来自利用者的指示的操作设备。作为输入装置16优选利用例如利用者可操作的操作件、或者检测对显示装置(省略图示)的显示面的接触的触摸面板。放音装置18(例如扬声器或者耳机)播放与由声音合成装置100生成的音响信号V对应的声音。此外，方便起见，省略了将音响信号V从数字变换为模拟的D/A变换器的图示。

存储装置14存储由控制装置12执行的程序和由控制装置12使用的各种数据。例如半导体记录介质或磁记录介质等周知的记录介质、或者多种记录介质的组合能够作为存储装置14任意采用。此外，也可以与声音合成装置100分体而设置存储装置14(例如云储存器)，经由移动通信网或互联网等通信网，控制装置12执行对存储装置14的读取或写入。即，存储装置14可以从声音合成装置100省略。

第1实施方式的存储装置14如图1所例示，存储声音片段组L、合成信息D以及统计模型M。声音片段组L是表示根据由特定的发声者(下面称为“发声者B”)发出的声音事先收录的多个声音片段PA的各个声音片段PA的片段数据的集合(声音合成用库)。第1实施方式的各声音片段PA根据发声者B以标准的发音特质(下面称为“第1发音特质”)发出的声音采取的。各声音片段PA是例如元音或辅音等音素单体、或者将多个音素连结的音素连锁(例如双音素或三音素)。时间分辨率或频率分辨率充分高的声音片段PA被收录于声音片段组L。

任意1个声音片段PA的片段数据如图2所例示，以将该声音片段PA在时间轴上进行划分的每个单位区间(时间帧)，表示为频谱QA和频谱包络(下面称为“单元频谱包络”)X。频谱QA是例如声音片段PA的复频谱(或其极坐标形式表现)。单元频谱包络X是表示频谱QA的概略形状的包络线(envelope)。此外，由于能够根据频谱QA对单元频谱包络X进行计算，因此原理上也可以采用不将单元频谱包络X包含于片段数据的结构。但是，根据频谱QA而唯一地计算优选的单元频谱包络X未必容易，因此实际上，优选与表示频谱QA的数据一起也将表示单元频谱包络X的数据包含于片段数据的结构。

单元频谱包络X含有时间性和/或频率性变动缓慢的平滑成分X1和与平滑成分X1相比变动快的细微的变动成分X2。在这里，平滑成分X1可以是对在频率轴方向上将频谱QA以规定的平滑度平滑化而得到的频谱包络X0进一步实施以更高的平滑度进行的频率轴方向的平滑化、以规定的平滑度进行的时间轴方向的平滑化、或者上述两者的平滑化而得到的。另外，变动成分X2可以从频谱包络X0减去变动成分X1而得到。平滑成分X1及变动成分X2可以以例如线谱对系数或者每个频率的振幅值等任意特征量表示。具体地说，例如平滑成分X1优选以线谱对系数表示，变动成分X2优选以每个频率的振幅值表示。

图1的合成信息D是对声音合成装置100的合成内容进行指示的数据(声音的合成指示)。具体地说，合成信息D针对构成乐曲A的多个音符的各个而指定音高DA和音位DB。音高DA是例如MIDI(MusicalInstrumentDigitalInterface)的音符编号。音位DB是由合成声音发出的发音内容(即乐曲A的歌词)，利用例如字位或者发音符号进行记述。合成信息D与针对输入装置16的来自利用者的指示对应地生成及变更。另外，也可以将从传送服务器装置经由通信网传送的合成信息D储存至存储装置14。

统计模型M是用于与合成信息D对应地统计推定发音特质与声音片段PA不同的声音的频谱包络(下面称为“统计频谱包络”)Y的数理模型，其中，该频谱包络Y是有时间变化的。第1实施方式的统计模型M是包含针对与合成信息D中被确定的每个属性(前后的关联)相应的每个转移模型的关联依存模型。在这里每个属性是根据例如音高、音量、音位中的某一者、某二者甚至全部被确定的。每个转移模型是以多个状态记述的HMM(Hidden MarkovModel)。针对每个转移模型的多个状态的各个，设定对统计频谱包络Y的发生概率的概率分布(occurrence probability distribution)进行规定的统计值(具体为平均矢量及协方差矩阵)。该统计值也可以是对状态的时间性的转移进行规定的统计值。并且，各转移模型的多个状态的各个的统计值作为统计模型M而存储于存储装置14。用于识别转移模型的属性，也可以在各时点的音素的信息(音高、音量、音位等)的基础上，进一步根据该音素前一个或者后一个音素的信息被确定。

统计模型M是通过机器学习而事先生成的，在该机器学习中将由发声者B以某种发音特质发出的多个声音的频谱包络作为学习数据进行利用。例如，某种发音特质的统计模型M之中的与任意1个属性对应的转移模型是通过在由发声者B以该发音特质发出的多个声音之中将分类于所述属性的声音的频谱包络作为学习数据的机器学习而生成。在这里，在统计模型M的机器学习中作为学习数据所利用的声音是发声者B以与声音片段PA的第1发音特质不同的发音特质(下面称为“第2发音特质”)发出的声音。作为第2发音特质，具体地说，将与第1发音特质相比发声者B发音较强的声音、发音更平稳的声音、发音更清晰的声音、发音更模糊的声音等的某一种利用于统计模型M的机器学习。即，以某一种第2发音特质发出的声音的频谱包络的统计性倾向通过统计模型M而作为每个属性的统计值进行建模。因此，如果使用该统计模型，则推定出该第2发音特质的声音的统计频谱包络Y。统计模型M与声音片段组L相比数据量充分小。此外，统计模型M作为针对例如标准的第1发音特质的声音片段组L的附加的数据，与声音片段组L分开提供。

图3是着眼于第1实施方式中的控制装置12的功能的框图。如图3所例示，控制装置12通过执行在存储装置14存储的程序，实现用于生成与合成信息D对应的合成声音的音响信号V的多个功能(片段取得部20、包络生成部30以及声音合成部40)。此外，也可以采用由多个装置实现控制装置12的功能的结构、或者由专用的电路分担控制装置12的一部分功能的结构。

片段取得部20依次取得与合成信息D对应的声音片段PB。具体地说，片段取得部20通过将与合成信息D所指定的音位DB对应的声音片段PA调整为合成信息D所指定的音高DA，由此生成声音片段PB。如图3所例示，第1实施方式的片段取得部20包含片段选择部22和片段加工部24而构成。

片段选择部22从存储装置14的声音片段组L中依次选择与由合成信息D针对每个音符所指定的音位DB对应的声音片段PA。此外，也可以将音高不同的多个声音片段PA登记于声音片段组L。在与合成信息D所指定的音位DB对应的不同的音高的多个声音片段PA之中，片段选择部22选择与合成信息D所指定的音高DA接近的音高的声音片段PA。

片段加工部24将由片段选择部22选择的声音片段PA的音高调整为由合成信息D指定的音高DA。在声音片段PA的音高的调整中，优选利用例如专利文献1所记载的技术。具体地说，如图2所例示，片段加工部24通过将声音片段PA的频谱QA沿频率轴的方向进行伸缩而调整为音高DA，调整强度而使得调整后的频谱的峰值位于单元频谱包络X的线上，由此生成频谱QB。因此，片段取得部20取得的声音片段PB由频谱QB和单元频谱包络X表现。此外，片段加工部24执行的处理的内容不限定于声音片段PA的音高的调整。例如，也可以由片段加工部24执行前后相继的各声音片段PA之间的插补。

图3的包络生成部30利用统计模型M生成与合成信息D对应的统计频谱包络Y。具体地说，包络生成部30从统计模型M依次检索与合成信息D对应的属性(前后的关联)的转移模型，将检索到的统计模型相互连结，根据多个转移模型的时间序列针对每个单位区间而依次生成统计频谱包络Y。即，将由合成信息D指定的音位DB以第2发音特质发出的声音的频谱包络作为统计频谱包络Y，由包络生成部30依次生成。

此外，统计频谱包络Y可以以线谱对系数或者低阶倒谱系数等任意种类的特征量表现。低阶倒谱系数是在信号的能量频谱的对数的傅里叶变换即倒谱系数中的由来于声道等调音器官的共鸣特性的低阶侧的规定个数的系数。此外，在利用线谱对系数表现统计频谱包络Y的情况下，需要维持线谱对系数从低阶侧向高阶侧范围的系数值依序增加的关系。但是，在利用统计模型M生成统计频谱包络Y的过程中，存在由于线谱对系数的平均等统计性运算而导致以上关系被破坏的可能性(无法适当地表现统计频谱包络Y的可能性)。因此，作为表现统计频谱包络Y的特征量，与线谱对系数相比，优选低阶倒谱系数。

图3的声音合成部40利用由片段取得部20取得的声音片段PB和由包络生成部30生成的统计频谱包络Y而生成合成声音的音响信号V。具体地说，声音合成部40生成表示如下声音的音响信号V，该声音是将各声音片段PB相互连接后的声音，且是与统计频谱包络Y对应地调整了各声音片段PB后的合成声音。如图3所例示，第1实施方式的声音合成部40包含特性调整部42和片段连接部44而构成。

特性调整部42通过使由片段取得部20取得的各声音片段PB的频谱QB的包络(单元频谱包络X)接近由包络生成部30生成的统计频谱包络Y，由此生成声音片段PC的频谱QC。片段连接部44通过将由特性调整部42调整后的各声音片段PC相互连接而生成音响信号V。具体地说，将声音片段PC的各帧的频谱QC通过例如短时逆傅里叶变换等运算而变换为时间区域的波形信号(乘以时间轴方向的窗函数得到的信号)，针对前后相继的帧的波形信号，在使在前的波形信号的后部和在后的波形信号的前部在时间上重叠的基础上进行相加，由此生成与一连串帧对应的音响信号V。此外，作为声音片段PC的相位谱，优选利用例如声音片段PA的相位谱、或者根据最小相位条件计算出的相位谱。

图4是特性调整部42根据声音片段PB的频谱QB生成声音片段PC的频谱QC的处理(下面称为“特性调整处理”)SC1的流程图。如图4所例示，特性调整部42设定系数α及系数β(SC11)。系数(插补系数的例示)α及系数β是例如与针对输入装置16的来自利用者的指示对应而可变地设定的小于或等于1的非负值(0≤α≤1，0≤β≤1)。

特性调整部42通过利用系数α对由片段取得部20取得的声音片段PB的单元频谱包络X和由包络生成部30生成的统计频谱包络Y进行插补，由此生成频谱包络(下面称为“插补频谱包络”)Z(SC12)。插补频谱包络Z如图2所例示，是单元频谱包络X与统计频谱包络Y的中间的特性的频谱包络。具体地说，插补频谱包络Z表现为下面所例示的算式(1)及算式(2)。

Z＝F(C)……(1)

C＝α·cY+(1－α)·cX1+β·cX2……(2)

算式(2)的记号cX1是表示单元频谱包络X的平滑成分X1的特征量，记号cX2是表示单元频谱包络X的变动成分X2的特征量。另外，记号cY是表示统计频谱包络Y的特征量。在算式(2)中，设想为特征量cX1和特征量cY是同种特征量(例如线谱对系数)的情况。算式(1)的记号F(C)是将利用算式(2)计算出的特征量C变换为频谱包络(即每个频率的数值的系列)的变换函数。

按照根据算式(1)及算式(2)所理解，特性调整部42针对统计频谱包络Y和单元频谱包络X的平滑成分X1之间的插补(α·cY+(1－α)·cX1)，将单元频谱包络X的变动成分X2以与系数β对应的程度相加，由此计算插补频谱包络Z。按照根据算式(2)所理解，系数α越大，则生成将统计频谱包络Y越优势地反映出的插补频谱包络Z，系数α越小，则生成将单元频谱包络X越优势地反映出的插补频谱包络Z。即，系数α越大(接近最大值1)，则生成与第2发音特质越接近的合成声音的音响信号V，系数α越小(接近最小值0)，则生成与第1发音特质越接近的合成声音的音响信号V。另外，在系数α设定为最大值1的情况下(C＝cY+β·cX2)，生成将合成信息D所指定的音位DB以第2发音特质发出的合成声音的音响信号V。另一方面，在系数α设定为最小值0的情况下(C＝cX1+β·cX2)，生成将合成信息D所指定的音位DB以第1发音特质发出的合成声音的音响信号V。按照根据上面的说明所理解，插补频谱包络Z是根据单元频谱包络X和统计频谱包络Y所生成的，相当于使第1发音特质及第2发音特质中的一者向另一者接近而得到的声音的频谱包络(即，使单元频谱包络X及统计频谱包络Y中的一者向另一者接近而得到的频谱包络)。另外，插补频谱包络Z也可以换言说明为包含单元频谱包络X及统计频谱包络Y这双方的特性的频谱包络、或者是将单元频谱包络X及统计频谱包络Y这双方的特性结合得到的频谱包络。

此外，如上所述，也可以将单元频谱包络X的平滑成分X1和统计频谱包络Y以不同的种类的特征量表现。例如，如果设想表示单元频谱包络X的平滑成分X1的特征量cX1为线谱对系数、表示统计频谱包络Y的特征量cY为低阶倒谱系数的情况，则所述算式(2)置换为下面的算式(2a)。

C＝α·G(cY)+(1－α)·cX1+β·cX2……(2a)

算式(2a)的记号G(cY)是用于将作为低阶倒谱系数的特征量cY变换为与特征量cX1同种的线谱对系数的变换函数。

特性调整部42通过使由片段取得部20取得的各声音片段PB的频谱QB接近按照上面的顺序(SC11及SC12)生成的插补频谱包络Z，由此生成声音片段PC的频谱QC(SC13)。具体地说，如图2所例示，特性调整部42通过调整频谱QB的强度而使得频谱QB的各峰值位于插补频谱包络Z的线上，由此生成频谱QC。特性调整部42根据声音片段PB生成声音片段PC的处理的具体例如上所述。

图5是生成与合成信息D对应的合成声音的音响信号V的处理(下面称为“声音合成处理”)S的流程图。在通过针对输入装置16的来自利用者的操作而指示了声音合成的开始的情况下，开始图5的声音合成处理S。

如果开始声音合成处理S，则片段取得部20依次取得与合成信息D对应的声音片段PB(SA)。具体地说，片段选择部22从声音片段组L中选择与合成信息D所指定的音位DB对应的声音片段PA(SA1)。片段加工部24通过将由片段选择部22选择的声音片段PA的音高调整为由合成信息D指定的音高DA，由此生成声音片段PB(SA2)。另一方面，包络生成部30利用统计模型M生成与合成信息D对应的统计频谱包络Y(SB)。此外，由片段取得部20进行的声音片段PB的取得(SA)和由包络生成部30进行的统计频谱包络Y的生成(SB)的顺序任意，也可以在统计频谱包络Y的生成(SB)之后取得声音片段PB(SA)。

声音合成部40生成与由片段取得部20取得的声音片段PB和由包络生成部30生成的统计频谱包络Y对应的合成声音的音响信号V(SC)。具体地说，特性调整部42通过图4所例示的特性调整处理SC1，生成将由片段取得部20取得的各声音片段PB的频谱QB变更为使其包络(单元频谱包络X)接近统计频谱包络Y的频谱QC。片段连接部44通过将由特性调整部42调整后的各声音片段PC相互连接而生成音响信号V(SC2)。声音合成部40(片段连接部44)生成的音响信号V供给至放音装置18。

直至应结束声音合成处理S的时点到来为止(SD：NO)，反复进行声音片段PB的取得(SA)、统计频谱包络Y的生成(SB)以及音响信号V的生成(SC)。例如，在通过利用者对输入装置16的操作而指示声音合成处理S的结束的情况下、或者在乐曲A整体范围完成声音合成的情况下(SD：YES)，声音合成处理S结束。

如上面所例示，在第1实施方式中，生成表示将声音片段PB相互连接后的声音、且与根据统计模型M生成的统计频谱包络Y对应地调整了各声音片段PB的合成声音的音响信号V。即，能够生成与第2发音特质接近的合成声音。因此，与针对每个发音特质都准备声音片段PA的结构相比，为了生成期望的发音特质的合成声音所需的存储装置14的存储容量得到削减。另外，与通过统计模型M生成合成声音的结构相比，能够生成利用了时间分辨率或频率分辨率高的声音片段PA的高品味的合成声音。

另外，在第1实施方式中，基于可变的系数α对声音片段PB的单元频谱包络X(原本的频谱)和统计频谱包络Y之间进行插补而求出插补频谱包络Z，对该声音片段PB的频谱QB进行加工，以使得其包络成为该插补频谱Z。在上面的结构中，由于在单元频谱包络X和统计频谱包络Y的插补中所应用的系数(权值)α设定为可变，因此能够使声音片段PB的频谱QB向统计频谱包络Y接近的程度(发音特质的调整的程度)进行变化。

在第1实施方式中，单元频谱包络X(原本的频谱包络)包含有时间上的变动缓慢的平滑成分X1和与平滑成分X1相比细微地变动的变动成分X2，特性调整部42通过在对统计频谱包络Y和平滑成分X1之间进行插补得到的频谱包络加上变动成分X2，从而计算插补频谱包络Z。在上面的方式中，通过向由所述插补得到的平滑的频谱包络加上变动成分X2而计算插补频谱包络Z，因此能够计算出适当地反映了变动成分X2的插补频谱包络Z。

另外，单元频谱包络X的平滑成分X1以线谱对系数表现，单元频谱包络X的变动成分X2以每个频率的振幅值表现，统计频谱包络Y以低阶倒谱系数表现。在上面的方式中，由于单元频谱包络X和统计频谱包络Y以不同的种类的特征量表现，因此具有下述优点，即，能够针对单元频谱包络X及统计频谱包络Y各自利用适当的特征量。例如，在以线谱对系数表现统计频谱包络Y的结构中，在利用了统计模型M的统计频谱包络Y的生成的过程中，存在线谱对系数从低阶侧向高阶侧的范围系数值依序增加的关系被破坏的可能性。如果考虑到上面的情况，则特别优选以低阶倒谱系数表现统计频谱包络Y的结构。

<第2实施方式>

对本发明的第2实施方式进行说明。此外，在下面例示的各方式中对作用或者功能与第1实施方式相同的要素，沿用在第1实施方式的说明中使用的标号而适当地省略各个详细的说明。

图6是着眼于第2实施方式的声音合成装置100的功能的框图。如图6所例示，第2实施方式的声音合成装置100的存储装置14除了存储与第1实施方式相同的声音片段组L及合成信息D之外，还存储与发声者B的不同的多个第2发音特质对应的多个(K个)统计模型M[1]～M[K]。例如，在存储装置14存储包含发声者B较强地发出的声音的统计模型、平稳地发出的声音的统计模型、清晰地发出的声音的统计模型、模糊地发出的声音的统计模型等在内的多个统计模型M[1]～M[K]。任意1个统计模型M[k](k＝1～K)是通过如下机器学习而事先生成的，在该机器学习中将发声者B以不同的K种类的第2发音特质中的第k个第2发音特质发出的声音作为学习数据进行利用。因此，K种类的第2发音特质中的第k个第2发音特质的声音的统计频谱包络Y是根据统计模型M[k]进行推定的。K个统计模型M[1]～M[K]合计的数据量少于声音片段组L的数据量。

第2实施方式的包络生成部30选择性地利用在存储装置14存储的K个统计模型M[1]～M[K]中的任一者而生成统计频谱包络Y。例如，包络生成部30利用由利用者通过对输入装置16的操作所选择的第2发音特质的统计模型M[k]而生成统计频谱包络Y。利用统计模型M[k]而由包络生成部30生成统计频谱包络Y的动作与第1实施方式相同。另外，片段取得部20取得与合成信息D对应的声音片段PB的结构、以及与由片段取得部20取得的声音片段PB和由包络生成部30生成的统计频谱包络Y对应地由声音合成部40生成音响信号V的结构也与第1实施方式相同。

在第2实施方式中也实现与第1实施方式同样的效果。另外，在第2实施方式中，由于将K个统计模型M[1]～M[K]中的任一者选择性地利用于统计频谱包络Y的生成，因此与仅利用1个统计模型M的结构相比，具有能够生成多种发音特质的合成声音的优点。在第2实施方式中，特别地，将由利用者通过对输入装置16的操作所选择的第2发音特质的统计模型M[k]利用于统计频谱包络Y的生成，因此还具有能够生成按照利用者的意图或者嗜好的发音特质的合成声音的优点。

＜变形例＞

上面例示的各方式能够进行多种变形。具体的变形的方式在下面例示。从下面的例示中任意选择的2个以上方式能够适当地组合。

(1)在上述的各方式中，在使各声音片段PB的频谱QB向统计频谱包络Y接近之后以时间区域使它们相互连接，但用于生成与声音片段PB和统计频谱包络Y对应的音响信号V的结构及方法不限定于上面的例示。

例如，也可以采用图7所例示的结构的声音合成部40。图7的声音合成部40具有片段连接部46和特性调整部48。片段连接部46通过将由片段取得部20取得的各声音片段PB相互连接而生成音响信号V0。具体地说，片段连接部46将声音片段PB的各帧的频谱QB变换为时间区域的信号，通过一边使前后相继的帧的信号相互重叠一边相加而生成与一连串的帧对应的音响信号V0。音响信号V0是表示第1发音特质的合成声音的时间区域的信号。图7的特性调整部48通过按照时间区域将统计频谱包络Y的频率特性赋予音响信号V0而生成音响信号V。例如，作为特性调整部48，优选利用与统计频谱包络Y和平滑成分X1的差分的频谱包络对应地频率响应设定为可变的滤波器。在利用图7的声音合成部40的结构中，也与上述各方式同样地，生成表示第2发音特质的合成声音的音响信号V。

另外，也可以采用图8所例示的结构的声音合成部40。图8的声音合成部40具有片段插补部52、特性调整部54、以及波形合成部56。片段插补部52对由片段取得部20取得的各声音片段PB执行插补处理。具体地说，在前后相继的各声音片段PB的相互之间，以频率区域执行频谱QB的插补处理和单元频谱包络X的插补处理。频谱QB的插补处理是在2个声音片段PB之间对频谱QB进行插补(例如交叉淡化)而使得在时间上前后相继的2个声音片段PB的连接部分处频谱连续地变化的处理。另外，单元频谱包络X的插补处理是在2个声音片段PB之间分别对单元频谱包络X的平滑成分X1及变动成分X2进行插补(例如交叉淡化)而使得在前后相继的2个声音片段PB的连接部分处频谱包络连续地变化的处理。片段插补部52也可以换言说明为按照频率区域将前后相继的各声音片段PB相互连接的处理。

图8的特性调整部54通过使由片段插补部52进行的插补处理后的各频谱向统计频谱包络Y接近，由此生成频谱QC。在由特性调整部54进行的频谱QC的生成中，优选利用参照图4进行了说明的特性调整处理SC1。图8的波形合成部56根据由特性调整部54生成的多个频谱QC的时间序列而生成时间区域的音响信号V。

按照根据上面的例示所理解，声音合成部40涵盖地表现为生成将由片段取得部20取得的各声音片段PB相互连接后的声音、且与统计频谱包络Y对应地调整了该各声音片段PB的合成声音的音响信号V的要素。即，声音合成部40涵盖地表现为如下要素：将利用片段取得部20依次取得的声音片段PB相互连接，并且与统计频谱包络Y对应地对各声音片段PB的频谱包络(单元频谱包络X)进行变更，基于具有变更后的频谱的连接后的声音片段而合成声音信号的要素。即，声音合成部40例如既可以为：

[A]在与统计频谱包络Y对应地调整声音片段PB之后，按照时间区域将调整后的声音片段PC相互连接的要素(图3)；

也可以为：

[B]在按照时间区域将各声音片段PB相互连接之后，赋予与统计频谱包络Y对应的频率特性的要素(图7)；

或者，也可以为：

[C]在按照频率区域将多个声音片段PB连接(具体为插补)的基础上，与统计频谱包络Y对应地进行调整后，变换为时间区域的要素(图8)。

例如如[A]所示，声音片段PB也可以在与统计频谱包络Y对应地按照频率区域调整之后，按照时间区域进行连接。另外，例如如[B]所示，声音片段PB也可以在按照时间区域而被赋予与统计频谱包络Y对应的频率特性之前，按照时间区域进行连接。另外，例如如[C]所示，声音片段PB也可以在与统计频谱包络Y对应地按照频率区域调整之前，按照频率区域进行连接(插补)。

例如如[A]所示，各声音片段PB也可以在按照时间区域连接之前，变更频谱包络。另外，例如如[B]所示，各声音片段PB也可以通过在按照时间区域进行连接之后，按照时间区域而被赋予与统计频谱包络Y对应的频率特性，由此变更频谱包络。另外，例如如[C]所示，各声音片段PB也可以在按照频率区域连接(插补)之后，变更频谱包络。

(2)在上述的各方式中，例示出将声音片段PA的发声者和统计模型M的学习用的声音的发声者设为同一个人B的情况，但作为统计模型M的学习用的声音，也可以利用与声音片段PA的发声者B不同的他人E的声音。另外，在上述的实施方式中，在将发声者B的声音作为学习数据而利用的机器学习中生成了统计模型M，但统计模型M的生成方法不限定于上面的例示。例如，也可以通过利用在将发声者B以外的发声者E的声音的频谱包络设为学习数据的机器学习中生成的统计模型，适当地对利用了发声者B的少数的学习数据的统计模型进行补正，由此生成发声者B的统计模型M。

(3)在上述的各方式中，通过将针对每个属性进行分类的发声者B的声音的频谱包络设为学习数据的机器学习而生成统计模型M，但也能够利用统计模型M以外的方法而生成统计频谱包络Y。例如，也可以采用将与不同的属性对应的多个统计频谱包络Y事先存储于存储装置14的结构(下面称为“变形结构”)。任意1个属性的统计频谱包络Y例如为，发声者B以某种发音特质发出的多个声音中的分类于该属性的多个声音的频谱包络的平均。包络生成部30从存储装置14依次选择与合成信息D对应的属性的统计频谱包络Y，声音合成部40与第1实施方式同样地生成与该统计频谱包络Y和声音片段PB对应的音响信号V。根据变形结构，不需要进行利用了统计模型M的统计频谱包络Y的生成。另一方面，在变形结构中，由于在多个声音范围对频谱包络进行了平均，因此统计频谱包络Y能够成为在时间轴及频率轴的方向上平滑化的特性。与该变形结构相比，在利用所述统计模型M而生成统计频谱包络Y的各方式中，存在能够生成维持了时间轴及频率轴的方向上的细微的构造的(即抑制了平滑化的)统计频谱包络Y的优点。

(4)在上述的各方式中，例示出合成信息D针对每个音符而指定音高DA和音位DB的结构，但合成信息D的内容不限定于上面的例示。例如，也能够在通过合成信息D指定音高DA及音位DB的基础上还指定音量(动态)。片段加工部24将由片段选择部22选择的声音片段PA的音量调整为由合成信息D指定的音量。另外，也可以将音位共通但音量不同的多个声音片段PA收录于声音片段组L，在与合成信息D所指定的音位DB对应的多个声音片段PA之中，由片段选择部22选择与合成信息D所指定的音量接近的音量的声音片段PA。

(5)在上述的各方式中，对应于统计频谱包络Y在乐曲A的整个区间范围对各声音片段PB进行了调整，但也可以针对乐曲A内的一部分区间(下面称为“调整区间”)选择性地执行利用了统计频谱包络Y的声音片段PB的调整。调整区间为例如乐曲A中的由利用者通过针对输入装置16的操作而指定的区间，或者乐曲A中的在合成信息D指定了起点及终点的区间。特性调整部(42、48或者54)对调整区间内的各声音片段PB执行利用了统计频谱包络Y的调整。针对调整区间以外的区间，从声音合成部40输出将多个声音片段PB相互连结的音响信号V(即未反映统计频谱包络Y的音响信号V)。根据上面的结构，由于调整区间外以第1发音特质发音，调整区间内以第2发音特质发音，因此可以生成多种合成声音的音响信号V。

此外，也可以设想针对乐曲A内的不同的多个调整区间的各个调整区别而执行利用了统计频谱包络Y的声音片段PB的调整的结构。另外，在与发声者B的不同的第2发音特质对应的多个统计模型M[1]～M[K]存储于存储装置14的结构(例如第2实施方式)中，也可以针对乐曲A内的每个调整区间，使在声音片段PB的调整所应用的统计模型M[k]不同。在多个调整区间各自的起点及终点和各调整区间所应用的统计模型M[k]例如由合成信息D进行指定。根据上面的结构，存在能够针对每个调整区间生成发音特质(例如歌唱声音的表达(articulation))变化的多种合成声音的音响信号V的特有的优点。

(6)表现单元频谱包络X及统计频谱包络Y的特征量不限定于上述的各方式中的例示(线谱对系数或低阶倒谱系数)。例如，可以通过每个频率的振幅值的系列而表现单元频谱包络X或统计频谱包络Y。另外，也可以通过与声带的振动特性和调音器官的共鸣特性近似的EpR(ExcitationplusResonance)参数而表现单元频谱包络X或统计频谱包络Y。此外，关于EpR参数，在例如日本专利第3711880号公报或日本特开2007-226174号公报中进行了公开。或者，也可以多通过个正态分布的加权和(即高斯混合模型)表现单元频谱包络X或统计频谱包络Y。

(7)也可以通过经由移动通信网或互联网等通信网而与终端装置(例如移动电话机或智能手机)进行通信的服务器装置而实现声音合成装置100。例如，声音合成装置100通过应用了从终端装置接收到的合成信息D的声音合成处理S而生成音响信号V，将该音响信号V发送至请求源的终端装置。

(8)如上所述，在上述的各方式中例示的声音合成装置100能够通过控制装置12和程序的协作而实现。在上述的各方式中例示的程序使计算机(例如控制装置12)作为下述部分起作用：片段取得部20，其依次取得与对合成内容进行指示的合成信息D对应的声音片段PB；包络生成部30，其通过统计模型M而生成与合成信息D对应的统计频谱包络Y；以及声音合成部40，其生成将由片段取得部20取得的各声音片段PB相互连接的声音、且与由包络生成部30生成的统计频谱包络Y对应地调整了所述各声音片段PB的合成声音的音响信号V。

上面例示的程序能够以储存于计算机可读取的记录介质的形态提供而安装于计算机。记录介质例如为非临时性(non-transitory)的记录介质，优选例为CD-ROM等光学式记录介质(光碟)，但可以包含半导体记录介质或磁记录介质等周知的任意形式的记录介质。此外，非临时性的记录介质包含除临时性的传播信号(transitory，propagatingsignal)以外的任意记录介质，并不将易失性的记录介质排除在外。另外，也可以以经由通信网的传送的方式而将程序提供给计算机。

(9)本发明优选的方式也可以确定为上述各方式涉及的声音合成装置100的动作方法(声音合成方法)。在优选的方式涉及的声音合成方法中，计算机系统(单体或多个计算机)进行如下处理：依次取得与对合成内容进行指示的合成信息D对应的声音片段PB，通过统计模型M而生成与合成信息D对应的统计频谱包络Y，生成将所取得的各声音片段PB相互连接后的声音、且与统计频谱包络Y对应地调整了所述各声音片段PB的合成声音的音响信号V。

(10)根据上面例示的方式，掌握例如下面的结构。

<方式1>

本发明优选的方式(方式1)涉及的声音合成方法具有：取得步骤，依次取得与声音的合成指示对应的多个声音片段；生成步骤，通过统计模型生成与所述合成指示对应的统计频谱包络；以及合成步骤，将所述依次取得的多个声音片段相互连接，并且，与所述生成的统计频谱包络对应地对各声音片段的频谱包络(frequency spectral envelope)进行变更(modify)，基于具有所述变更后的频谱的所述连接后的声音片段而对声音信号进行合成。在上面的方式中，生成将声音片段相互连接后的声音、且与通过统计模型生成的统计频谱包络对应地调整了各声音片段的合成声音(例如与在统计模型中建模化的发音特质接近的合成声音)的音响信号。因此，与针对每个发音特质都准备声音片段的结构相比，为了生成期望的发音特质的合成声音而所需的存储容量得到削减。另外，与不利用声音片段而利用统计模型生成合成声音的结构相比，能够生成利用了时间分辨率或频率分辨率高的声音片段的高品味的合成声音。

<方式2>

在方式1的优选例(方式2)中，所述合成步骤包含：变更步骤，将所述各声音片段的频谱包络变更(modify)为向所述统计频谱包络接近；以及连接步骤，将所述变更后的多个声音片段进行连接。

<方式3>

在方式2的优选例(方式3)中，在所述变更步骤中，对所述各声音片段的原本的频谱包络和所述统计频谱包络之间基于可变的插补系数而进行插补，求出插补频谱包络，基于所述求出的插补频谱包络而对该各声音片段的原本的频谱包络进行变更。在上面的方式中，由于在原始的频谱包络(单元频谱包络)和统计频谱包络的插补中所应用的插补系数(权值)设定为可变，因此能够使声音片段的频谱向统计频谱包络接近的程度(发音特质的调整的程度)进行变化。

<方式4>

在方式3的优选例(方式4)中，所述原本的频谱包络包含时间性变动缓慢的平滑成分和与所述平滑成分相比变动快的细微的变动成分，在所述变更步骤中，通过在对所述统计频谱包络和所述平滑成分之间进行插补得到的频谱包络加上所述变动成分，从而计算所述插补频谱包络。在上面的方式中，通过向统计频谱包络和原本的频谱包络(单元频谱包络)的平滑成分的插补加上变动成分而计算插补频谱包络，因此可以计算出适当地含有平滑成分和变动成分的插补频谱包络。

<方式5>

在方式1的优选例(方式5)中，所述合成步骤包含：连接步骤，按照时间区域将所述依次取得的多个声音片段进行连接；以及变更步骤，通过对按照所述时间区域连接的声音片段按照时间区域赋予所述统计频谱包络的频率特性，从而对所述频谱包络进行变更。

<方式6>

在方式1的优选例(方式6)中，所述合成步骤包含：连接步骤，针对所述依次取得的多个声音片段，按照频率区域将时间上前后相继的声音片段进行插补而连接；以及变更步骤，将所述连接后的声音片段的频谱包络变更为向所述统计频谱包络接近。

<方式7>

在方式1至方式6中任一方式的优选例(方式7)中，所述频谱包络和所述统计频谱包络表现为不同的特征量。频谱包络(单元频谱包络)的表现优选采用包含频率轴方向的参数在内的特征量。具体地说，单元频谱包络的平滑成分优选表现为例如线谱对系数、EpR(ExcitationplusResonance)参数、或者多个正态分布的加权和(即高斯混合模型)等特征量，单元频谱包络的变动成分表现为例如每个频率的振幅值等特征量。另一方面，统计频谱包络的表现采用例如适合统计性运算的特征量。具体地说，统计频谱包络表现为例如低阶倒谱系数或者每个频率的振幅值等特征量。在上面的方式中，由于频谱包络(单元频谱包络)和统计频谱包络表现为不同的特征量，因此具有单元频谱包络及统计频谱包络能够分别利用适当的特征量的优点。

<方式8>

在方式1至方式7中任一方式的优选例(方式8)中，在所述生成步骤中，选择性地利用与不同的发音特质对应的多个统计模型中的某者而生成所述统计频谱包络。在上面的方式中，由于在统计频谱包络的生成中选择性地利用多个统计模型中的某者，因此与仅利用1个统计模型的结构相比，具有能够生成多种发音特质的合成声音的优点。

<方式9>

本发明优选的方式(方式9)涉及的声音合成装置具有：片段取得部，其依次取得与声音的合成指示对应的多个声音片段；包络生成部，其利用统计模型生成与所述合成指示对应的统计频谱包络；以及声音合成部，其将所述依次取得的多个声音片段相互连接，并且，根据所述生成的统计频谱包络对各声音片段的频谱包络进行变更，基于具有所述变更后的频谱的所述连接后的声音片段而合成声音信号。

标号的说明

100…声音合成装置，12…控制装置，14…存储装置，16…输入装置，18…放音装置，20…片段取得部，22…片段选择部，24…片段加工部，30…包络生成部，40…声音合成部，42、48、54…特性调整部，44、46…片段连接部，L…声音片段组，D…合成信息，M…统计模型。

Claims

1.一种声音合成方法，其具有：

取得步骤，依次取得与声音的合成指示对应的包含双音素或三音素中的至少一者的多个声音片段，将各声音片段按每单位时间区间表示为频谱；

生成步骤，通过统计模型生成与所述合成指示对应的每个单位时间区间的统计频谱包络，所述统计模型是通过机器学习而事先生成的，并且所述统计模型进行学习以使得推定统计频谱包络；

变更步骤，根据所生成的各单位时间区间的统计频谱包络，变更依次取得的所述声音片段的包括其频谱的各单位时间区间的频谱包络，以合成具有变更后的频谱的声音信号；以及

连接步骤，将变更前的所述依次取得的多个声音片段或者所述变更步骤后取得的变更后的多个声音片段相互连接。

2.根据权利要求1所述的声音合成方法，其中，

在所述变更步骤中，将取得的所述各声音片段的频谱包络变更为向各自生成的所述统计频谱包络接近，

在所述连接步骤中，将所述变更后的多个声音片段进行连接。

3.根据权利要求2所述的声音合成方法，其中，

在所述变更步骤中，对所述各声音片段的原本的频谱包络和各自生成的所述统计频谱包络之间基于可变的插补系数进行插补，求出插补频谱包络，基于所述求出的插补频谱包络而对该各声音片段的原本的频谱包络进行变更。

4.根据权利要求3所述的声音合成方法，其中，

所述原本的频谱包络包含时间性变动缓慢的平滑成分和与所述平滑成分相比变动快的细微的变动成分，

在所述变更步骤中，通过在对所述统计频谱包络和所述平滑成分之间进行插补得到的频谱包络加上所述变动成分，从而计算所述插补频谱包络。

5.根据权利要求1所述的声音合成方法，其中，

在所述连接步骤中，按照时间区域将所述依次取得的多个声音片段进行连接，

在所述变更步骤中，通过对按照所述时间区域连接的声音片段按照时间区域赋予各自生成的所述统计频谱包络的频率特性，从而对所述频谱包络进行变更。

6.根据权利要求1所述的声音合成方法，其中，

在所述连接步骤中，针对所述依次取得的多个声音片段，按照频率区域将时间上前后相继的声音片段进行插补而连接，

在所述变更步骤中，将所述连接后的声音片段的频谱包络变更为向各自生成的所述统计频谱包络接近。

7.根据权利要求1至6中任一项所述的声音合成方法，其中，

所述频谱包络和各自生成的所述统计频谱包络以不同的特征量表现。

8.根据权利要求1至6中任一项所述的声音合成方法，其中，

在所述生成步骤中，选择性地利用与不同的发音特质对应的多个统计模型中的某一者而生成所述统计频谱包络。

9.根据权利要求7所述的声音合成方法，其中，

10.一种声音合成装置，其具有：

片段取得部，其依次取得与声音的合成指示对应的包含双音素或三音素中的至少一者的多个声音片段，将各声音片段按每单位时间区间表示为频谱；

包络生成部，其通过统计模型生成与所述合成指示对应的每个单位时间区间的统计频谱包络，所述统计模型是通过机器学习而事先生成的，并且所述统计模型进行学习以使得推定统计频谱包络；

特性调整部，其根据所生成的各单位时间区间的统计频谱包络，变更依次取得的所述声音片段的包括其频谱的各单位时间区间的频谱包络，以合成具有变更后的频谱的声音信号；以及

片段连接部，其将依次取得的变更前的多个声音片段或者进行变更后取得的变更后的多个声音片段相互连接。