CN105719640B

CN105719640B - 声音合成装置及声音合成方法

Info

Publication number: CN105719640B
Application number: CN201510968697.6A
Authority: CN
Inventors: 田中飞雄太
Original assignee: Western Europe Desk
Current assignee: Western Europe Desk
Priority date: 2014-12-22
Filing date: 2015-12-22
Publication date: 2019-11-05
Anticipated expiration: 2035-12-22
Also published as: CN105719640A; JP6520108B2; JP2016118722A; US9805711B2; US20160180833A1

Abstract

声音合成装置及声音合成方法。从目标韵律中提取音高频率的时间变化作为音高序列。将提取出的音高序列的各频率值用适当的粗糙度进行量化。对于量化了的音高序列，通过运算时间方向的加权移动平均而进行时间方向的平滑化，计算出被平滑化了的音高序列。结果，能够对应于细微变动的音高序列而得到具有自然的音高变化的被平滑化了的音高序列。使通过波形合成方式而被波形连接的连接声音片段的各时间的音高改变，以对应于被平滑化了的音高序列的各时间的音高的值，对于音量序列也执行同样的处理，最终输出合成音。

Description

声音合成装置及声音合成方法

本申请基于2014年12月22日提出的日本专利申请第2014－259485号主张优先权，这里引用其全部内容。

技术领域

本发明涉及声音合成装置及声音合成方法。

背景技术

已知有以下这样的声音合成技术：对于根据输入文本数据生成的合成目标，通过参照被电子化了的大规模的语言－声音数据即声音语料库(speech corpus)，来选择声音波形的片段(日语：素片)(以下记作“声音片段”)，通过将该声音片段连接而输出合成声音。

(例如：

[a]“CHATR：自然声音波形连接型任意声音合成系统”(自然音声波形接続型任意音声合成システム)，电子信息通信学会信学技法(電子情報通信学会信学技法)，SP96－7.

[b]“使用大规模语料库的声音合成系统XIMERA(大規模コーパスを用いた音声合成システムXIMERA)”，电子信息通信学会论文志(電子情報通信学会論文誌)D Vol.J89－DNo.12pp.2688－2698.

[c]河井恒，“知识库3－4语料库声音合成(知識ベース3-4コーパスベース音声合成)”，[online]，ver.1/2011.1.7，电子信息通信学会(電子情報通信学会)”，[平成26年12月5日检索]，因特网<URL：http：//27.34.144.197/files/02/02gun_07hen_03.pdf#page＝6>)

在这样的声音合成技术中，作为用来从声音语料库选择最适合于合成目标的声音片段序列的方法，以往已知有以下这样的技术(例如非专利文献3所记载的技术)。首先，按从输入文本数据提取的每个音素序列(phoneme sequences)，将具有与该音素序列相同的音素序列的声音片段的数据(以下记作“片段数据”)作为片段候选数据从声音语料库中提取。接着，通过DP(Dynamic Programming：动态规划)算法，决定在输入文本数据整体中代价(cost)为最小的最优片段候选数据的组(最优片段数据序列)。作为代价，可以使用输入文本数据与声音语料库内的各片段数据间的音素序列及韵律的差异、作为片段候选数据的相邻的片段数据间的波谱包络(spectral envelope)等声学参数(acoustic parameter)(特征量向量数据)的不连续性等。

与输入文本数据对应的音素序列通过例如对输入文本数据执行形态解析(morphological analysis)处理来得到。

与输入文本数据对应的韵律(prosody)(以下将其记作“目标韵律”)是各音素的声带(vocal cord)的基本频率即音高(pitch)的高度、持续时间长及强度(音量(power))。作为该目标韵律的指定方式，有基于从输入文本数据得到的语言信息、使用基于实际的声音数据的统计模型来生成的方法(例如，匂坂芳典(匂坂芳典)，“知识库3－7韵律的生成(知識ベース3-7韻律の生成)”，[online]，ver.1/2011.1.7，电子信息通信学会(電子情報通信学会)，[平成26年12月5日检索]，因特网<URL：http：//27.34.144.197/files/02/02gun_07hen_03.pdf#page＝13>)。语言信息例如可以通过对输入文本数据执行形态解析处理而得到。或者，作为目标韵律的指定方式，有用户以数值进行参数输入的方法。

进而，作为目标韵律的指定方式，有通过由用户自身将文本发声等而给出的声音来指定的方法。与根据文本的推测和数值参数的调整相比，该方式有能够进行直观性的操作、能够进行感情和声调(intonation)的赋予等自由度高的目标韵律指定的优点。

但是，在通过用户的声音输入进行的目标韵律指定方式中有以下那样的课题。首先，由于能够指定的目标韵律的自由度增加，所以需要能够与其对应的声音片段，如果想要使充分的量一致，则声音语料库的数据库会变得巨大。此外，在用户输入的声音的目标韵律和声音数据库内的声音片段所具有的韵律中，例如有声音的高度等依存于个人的不同点，难以选择适当的声音片段。

为了解决上述课题，已知有在声音波形连接处理时通过信号处理将声音片段的以下要素修正、使其与用户输入的声音的目标韵律相适应的方法。

1.各音素的持续时间长。

2.音高(音的高低)。

3.音量(音的大小)。

但是，仅通过利用信号处理使用户输入的声音的目标韵律单纯地适应于从声音数据库选择的声音片段，会发生以下这样的问题。有在用户输入的声音的目标韵律中包含细小的音高和音量的变动的情况，如果使它们全部适应于声音片段，则由信号处理带来的音质的劣化变显著。此外，在用户输入的声音的目标韵律和声音片段的韵律(特别是音高)较大地不同的情况下，如果单纯地进行适应则合成声音的音质劣化。

发明内容

因此，本发明的目的在于，在波形连接方式的声音合成系统中，在通过声音输入指定目标韵律时，不需要使声音语料库的规模扩大而能够在维持高自由度的同时使合成声音的音质提高。

在技术方案的一例中，具备处理部，该处理部执行：声调信息提取处理，从输入的声音数据中包含的韵律信息提取声调信息；以及输出处理，基于提取出的上述声调信息，将连接着多个声音片段的连接声音片段中包含的要素的至少一部分变更，基于将上述要素的至少一部分变更后的上述连接声音片段，输出合成声音。

附图说明

图1是声音合成装置的实施方式的框图。

图2是表示声音DB的数据结构例的图。

图3是表示声音合成装置的实施方式的硬件结构例的图。

图4是表示声音合成处理的例子的流程图。

图5是音高适应处理(pitch adaptation processing)的说明图。

图6是音量适应处理(power adaptation processing)的说明图。

图7是表示音高适应处理的详细例的流程图。

图8是表示音量适应处理的详细例的流程图。

具体实施方式

以下，参照附图对用来实施本发明的形态详细地说明。图1是声音合成装置100的实施方式的框图。声音合成装置100具备声音合成部101、声音数据库(以下记作“声音DB”)102、输入部103及输出部104。进而，声音合成部101具备文本解析模块105、韵律解析模块106、片段选择模块107、波形连接模块108、音高适应模块109、音量适应模块110及系统控制部111。此外，输入部103具备声音输入装置112及文本输入装置113。输出部104具备声音输出装置114。片段选择模块107及波形连接模块108对应于声音片段选择－连接部，音高适应模块109及音量适应模块110对应于声调信息提取部及声调适应部。

输入部103的文本输入装置113将输入文本数据输入。此外，输入部103的声音输入装置112例如被输入表示输入文本数据的输入声音数据。

声音合成部101针对根据从文本输入装置113输入的输入文本数据生成的合成目标，通过参照存储在声音DB102中的作为声音片段的集合的声音语料库来选择声音片段，通过将该声音片段连接而生成连接声音片段。

图2是表示存储在图1的声音DB102中的声音语料库的数据结构例的图。作为声音语料库，例如保存有下述项目的数据。

·预先被录音的声音数据(图2A)。

·与图2A的声音数据对应的音素标注(phoneme label)的信息(图2B)。基本上，带有该标注的图2A的声音数据的片断成为声音片段。该音素标注的信息如图2B所示，具有“开始位置”、“持续时间长”及“音素种类”的各信息。

·按由一定时间T(ms：毫秒)构成的每个段，从图2A的声音数据中解析出的音高、音量、共振峰(formant)等声学信息(图2C)。段长T例如是“10”ms。

回到图1的说明，声音合成部101内的文本解析模块105，通过对文本输入装置113输入的输入文本数据执行例如形态解析处理，提取与输入文本数据对应的带有重音(accent)的音素序列。

声音合成部101内的韵律解析模块106将声音输入装置112输入的输入声音数据进行解析，提取目标韵律。

声音合成部101内的片段选择模块(声音片段选择－连接部)107，针对由从输入文本数据生成的音素序列和从输入声音数据生成的目标韵律构成的合成目标，通过参照声音数据内的声音语料库(图2)来选择声音片段。

声音合成部101内的波形连接模块108，通过将由片段选择模块107选出的声音片段进行连接，生成连接声音片段。

声音合成部101内的音高适应模块109，将在波形连接模块108输出的连接声音片段中包含的音高序列(pitch sequence)进行变更，以使其适应于在从输入部103的声音输入装置112输入的输入声音数据中包含的音高序列。

声音合成部101内的音量适应模块110，将在波形连接模块108输出的连接声音片段中包含的音量序列(power sequence)进行变更，以使其适应于在从输入部103的声音输入装置112输入的输入声音数据中包含的音量序列。

声音合成部101内的系统控制部111，对声音合成部101内的105～110的各部分的动作的执行顺序等进行控制。

图3是表示能够将图1的声音合成装置100作为软件处理来实现的计算机的硬件结构例的图。图3所示的计算机具有CPU301、ROM(只读存储器：读出专用存储器)302、RAM(随机访问存储器)303、输入装置304、输出装置305、外部存储装置306、可移动记录介质410可插入的可移动记录介质驱动装置307、以及通信接口308，并具有将它们通过总线309相互连接的结构。该图所示的结构是能够实现上述系统的计算机的一例，这样的计算机并不限定于该结构。

ROM302是存储包含对计算机进行控制的声音合成程序的各程序的存储器。RAM303是在执行各程序时将存储在ROM302中的程序或数据暂时保存的存储器。

外部存储装置306例如是SSD(固态驱动；solid-state drive)存储装置或硬盘存储装置，用于输入文本数据、输入声音数据、连接声音片段数据或合成声音数据等的保存。此外，外部存储装置306存储保存有具有图2的数据结构例的声音语料库的声音DB102。

CPU301通过将各程序从ROM302读出到RAM303中并执行，进行该计算机整体的控制。

输入装置304检测用户通过键盘或鼠标等进行的输入操作，将其检测结果向CPU301通知。此外，输入装置304具备图1的输入部103的声音输入装置112的功能，特别是经由未图示的麦克风或线路输入端子(line input terminal)将输入声音数据输入，并通过A/D(模拟－数字)变换而变换为数字数据后，向RAM303或外部存储装置306存储。并且，输入装置304具备图1的输入部103的文本输入装置113的功能，特别是经由未图示的键盘或设备接口等将输入文本数据输入，向RAM303或外部存储装置306存储。

输出装置305将通过CPU301的控制而被送来的数据向显示装置或印刷装置输出。此外，虽然没有特别图示，但输出装置305将由CPU301输出到外部存储装置306或RAM303中的合成声音数据用D/A变换器变换为模拟合成声音信号后，用放大器放大，经由扬声器作为合成声音放出。

可移动记录介质驱动装置307用于收容光盘或SDRAM、CF卡等可移动记录介质310，具有外部存储装置306的辅助的作用。

通信接口308是用来将例如LAN(局域网)或WAN(广域网)的通信线路连接的装置。

在本实施方式的声音合成装置100中，CPU301一边使用RAM303作为工作存储器一边执行存储在ROM302中的声音合成程序，由此实现图1的声音合成部101内的105～111的各块的功能。该程序既可以记录到例如外部存储装置306或可移动记录介质410中而分发，或者也可以通过网络连接装置308从网络取得。

图4是表示具有图3的硬件结构例的计算机的CPU301通过软件程序的处理实现与图1的结构对应的声音合成装置100的功能的情况下的、声音合成处理的例子的流程图。以下随时参照图1、图2及图3。

CPU301首先对文本输入装置113输入的输入文本数据执行文本解析处理(步骤S401)。这里，CPU301通过对输入文本数据执行例如形态解析处理，提取与输入文本数据对应的带有重音的音素序列。该处理实现图1的文本解析模块105的功能。

接着，CPU301对于声音输入装置112输入的输入声音数据执行韵律解析处理(步骤S402)。这里，CPU301对输入声音数据执行例如音高提取处理和音量分析处理。并且，CPU301通过参照由步骤S402的文本解析处理得到的带有重音的音素序列，计算每个音素的音高的高度(频率)、持续时间长及音量(强度)，将这些信息作为目标韵律来输出。

接着，CPU301执行片段选择处理(步骤403)。这里，CPU301从登录有构成图2所例示的数据结构的声音语料库的声音DB102中，选择与在步骤S401中计算出的音素序列及在步骤S402中计算出的目标韵律对应的声音片段的序列，以使关于音素及韵律而计算的代价为最优。此时，CPU301首先通过将声音语料库中的音素标注的序列(图2B)与在步骤S401中计算出的音素序列进行比较，从而从声音语料库中列出满足片段评价的代价条件的片段候选数据。接着，CPU301通过将片段候选数据中的声学信息(图2C)与目标韵律进行比较，从而从列出的片段候选数据中选择满足连接评价的代价条件的最优片段候选数据，最终选定声音片段的序列。

接着，CPU301执行波形连接处理(步骤S404)。这里，CPU301输入步骤S403中的声音片段的选择结果，从声音DB102中的声音语料库提取对应的声音片段的声音数据(图2A)，并将它们连接而输出连接声音片段。

如上述那样输出的连接声音片段，是在声音DB102所保有的声音语料库内、以使针对输入的音素序列和目标韵律而将关于音素的片段评价与关于韵律的连接评价合并得到的代价为最优的方式选择出的。但是，作为声音语料库，在不能保有巨大的数据库那样的小规模的系统中，在从输入声音数据生成的目标韵律和声音语料库内的有限的规模的声音片段具有的韵律中，关于声调的赋予方式等，有依存于个人的差异点。因此，在步骤S404中将连接声音片段输出的阶段中，不能说用输入声音数据表现的声调被充分反映到连接声音片段中。另一方面，如果想要单纯地匹配连接声音片段的音高及音量以使其与目标韵律中的音高及音量相符，则目标韵律中的音高及音量的细小变动会给连接声音片段的音高及音量带来影响，相反音质劣化会变得明显。

所以，在本实施方式中，认为目标韵律中的音高及音量的全局性的变动良好地表示了讲话者的声调即感情，从目标韵律提取音高及音量的平缓的变动，通过基于该变动数据使连接声音片段的音高及音量改变(shift)，生成良好地反映了目标韵律中包含的声调信息的合成声音。

为此，CPU301在步骤S404的波形连接处理后，执行音高适应处理(步骤S405)。图5是音高适应处理的说明图。如图5A所例示那样，CPU301首先从目标韵律中提取音高频率的时间变化作为音高序列。接着，如图5B所例示那样，CPU301将音高序列的各频率值以适当的粗糙度(roughness)进行量化，计算出量化了的音高序列。由此，将目标韵律中的微细的音高的变动排除，得到音高的变化的大致形式。进而，如图5C所例示那样，CPU301通过对量化了的音高序列运算时间方向的加权移动平均而进行时间方向的平滑化，计算出平滑化了的音高序列。具体而言，例如，CPU301一边在量化了的音高序列中使运算中心采样位置从开头起每次移动1个采样，一边针对该运算中心采样位置的两侧规定采样量、例如使随着从运算中心采样位置远离而频率值每次一定量地线性变小，计算它们的平均值，将该平均值作为该运算中心采样位置的运算出的值而算出。由此，能够与图5A所例示的细微变动的音高序列对应地，得到图5C所例示那样的具有自然的音高变化的被平滑化了的音高序列。CPU301使在步骤S404中输出的连接声音片段的各时间的音高改变，以对应于这样生成的被平滑化了的音高序列的各时间的音高的值，并输出其结果。

接着，CPU301在步骤S405的音高适应处理后，执行音量适应处理(步骤S406)。另外，音高适应处理和音量适应处理的执行顺序是哪种都可以，此外，也可以仅执行其某一方。图6是音量适应处理的说明图。首先，如图6A－1所例示那样，CPU301从目标韵律中提取音量值的序列(以下称作“音量序列”)，同样，如图6A－2所例示那样，从连接声音片段(步骤S405的音高改变的结果)提取音量序列。接着，CPU301对于各个音量序列，通过与音高序列的情况同样地运算时间方向的加权移动平均，从而进行时间方向的平滑化，算出图6B－1所例示的与目标韵律对应的被平滑化了的音量序列、和图6B－2所例示的与连接声音片段对应的被平滑化了的音量序列。由此，在各个音量序列中，微细的变动被排除，得到音量的变化的大致形式。进而，CPU301计算与目标韵律对应的被平滑化了的音量序列的各时间的采样值、与图6B－2所例示的与连接声音片段对应的被平滑化了的音量序列的各时间的采样值之比。并且，CPU301将按各时间计算出的比的值乘以连接声音片段(步骤S405的音高改变的结果)的各采样值，将其结果作为最终的合成声音输出。

CPU301将如上述那样输出的合成声音数据作为声音文件向例如RAM303或外部存储装置306中保存，并且经由图1的声音输出装置114放出合成声音。

图7是表示图4的步骤S405的音高适应处理的详细例的流程图。

CPU301首先从在图4的步骤S402中生成的目标韵律中提取音高序列(以下将其记作“目标音高序列”)，执行使该目标音高序列与连接声音片段的音高序列的时间尺度(timescale)相匹配的时间伸展(time stretching)处理(步骤S701)。由此，两者的时间的长度的差异被吸收。

接着，CPU301调整在步骤S701中进行时间伸展处理后的目标音高序列和连接声音片段的音高序列的音高存在区间(步骤S702)。具体而言，CPU301例如将连接声音片段的音高序列与目标音高序列进行比较，在连接声音片段中将与不存在音高的区间对应的目标音高序列的区间的音高删除。

接着，CPU301将在步骤S702中调整音高存在区间后的目标音高序列的频率值量化(对应于图5B)(步骤S703)。具体而言，CPU301例如以将音高频率值在每1个八度中N分割(更具体地讲，3～10分割等)的单位，将目标音高序列量化。

进而，CPU301将在步骤S703中量化了的目标音高序列通过在图5C中所述的加权移动平均运算进行平滑化(步骤S704)。

最后，CPU301使在步骤S704中计算出的平滑化了的目标音高序列与连接声音片段相适应(步骤S705)。具体而言，如在图5中所述那样，CPU301使在步骤S701中调整后的连接声音片段的各时间的音高改变，以使其对应于在步骤S704中被平滑化了的音高序列的各时间的音高的值，并将其结果输出。

图8是表示图4的步骤S406的音量适应处理的详细例的流程图。

CPU301首先从在图4的步骤S402中生成的目标韵律中提取音量序列(以下将其记作“目标音量序列”)，执行使该目标音量序列与连接声音片段的音量序列的时间尺度相匹配的时间伸展处理(步骤S801)。另外，进行调整，以使尺度与在图7的步骤S701中执行的时间伸展处理的结果相符。

接着，CPU301将在步骤S801中进行时间伸展处理后的目标音量序列和连接声音片段的音量序列分别通过在图6B－1及图6B－2中所述的加权移动平均运算进行平滑化(步骤S802)。

接着，CPU301计算在步骤S802中计算出的对应于目标韵律的被平滑化了的音量序列的各时间的采样值、与对应于连接声音片段的被平滑化了的音量序列的各时间的采样值之比(步骤S803)。

最后，CPU301使在步骤S803中按各时间计算出的比的值与连接声音片段相适应(步骤S804)。具体而言，如在图6中所述那样，CPU301将在步骤S803中按各时间计算出的比的值乘以连接声音片段的各采样值，将其结果作为最终的合成声音输出。

在以上说明的实施方式中，认为目标韵律中的音高及音量的全局性变动良好地表示讲话者的声调即感情，从目标韵律中提取音高及音量的平缓的变动，通过基于该变动数据使连接声音片段的音高及音量改变，从而生成良好地反映了目标韵律中包含的声调信息的合成声音。但是，在本发明中，声调信息并不限于目标韵律中的音高及音量的全局性变动。例如，作为声调信息，也可以使用在图4的步骤S401中与音素序列一起提取的重音信息，执行在重音位置对在图4的步骤S404的波形连接处理中输出的连接声音片段进行某种加工那样的适应处理。除此以外，如果能够从输入声音数据中提取能够表现声调信息的参数，则也可以执行根据该参数将连接声音片段进行加工那样的适应处理。

如以上这样，在本实施方式中，在波形连接方式的声音合成系统中，当通过声音输入指定目标韵律时，能够维持基于声音输入的声调指定的高自由度，并且不需要使声音语料库的规模扩大而能够使合成声音的音质提高。

Claims

1.一种声音合成装置，其特征在于，

具备处理部，该处理部执行：

声调信息提取处理，从输入的声音数据中包含的韵律信息提取声调信息；以及

输出处理，基于提取出的上述声调信息，将连接着多个声音片段的连接声音片段中包含的要素的至少一部分变更，基于将上述要素的至少一部分变更后的上述连接声音片段，输出合成声音；

在上述声调信息提取处理中，上述处理部执行这样的处理，即：将构成上述输入的声音数据中包含的作为韵律信息的音高序列的音高进行量化，将被量化了的上述音高进行加权移动平均运算，从而生成上述音高被平滑化后的音高序列。

2.如权利要求1所述的声音合成装置，其特征在于，

上述处理部还执行：

选择处理，基于输入的文本数据，选择多个声音片段；以及

连接处理，通过将所选择的上述多个声音片段连接，生成连接声音片段。

3.如权利要求2所述的声音合成装置，其特征在于，

上述输入的声音数据是语音数据，上述语音数据表示上述输入的文本数据。

4.如权利要求1所述的声音合成装置，其特征在于，

在上述输出处理中，上述处理部执行音高适应处理，该音高适应处理中，将上述连接声音片段中包含的要素即音高序列进行变更，以使其适应于通过上述声调信息提取处理的执行而提取出的声调信息。

5.如权利要求1所述的声音合成装置，其特征在于，

在上述声调信息提取处理中，上述处理部执行这样的处理，即：将上述输入的声音数据中包含的作为韵律信息的音高序列的音高进行平滑化，提取上述音高被平滑化后的音高序列作为上述声调信息。

6.如权利要求4所述的声音合成装置，其特征在于，

在上述音高适应处理中，上述处理部还执行这样的处理，即：调整上述输入的声音数据中包含的作为韵律信息的音高序列和上述连接声音片段中包含的音高序列的时间尺度，并且调整作为上述韵律信息的音高序列和上述连接声音片段中包含的音高序列的音高存在区间。

7.如权利要求1所述的声音合成装置，其特征在于，

在上述输出处理中，上述处理部执行音量适应处理，该音量适应处理中，将上述连接声音片段中包含的要素即音量序列进行变更，以适应于通过上述声调信息提取处理的执行而提取出的声调信息。

8.如权利要求7所述的声音合成装置，其特征在于，

在上述声调信息提取处理中，上述处理部执行这样的处理，即：将上述输入的声音数据中包含的作为韵律信息的音量序列进行平滑化，提取被平滑化了的上述音量序列作为上述声调信息；

在上述音量适应处理中，上述处理部执行这样的处理，即：将上述连接声音片段中包含的音量序列进行平滑化，计算被平滑化了的上述音量序列与作为上述声调信息的被平滑化了的音量序列之比的序列，基于上述比的序列，修正上述连接声音片段的音量序列。

9.如权利要求8所述的声音合成装置，其特征在于，

在上述声调信息提取处理中，上述处理部执行这样的处理，即：通过将上述音量序列中包含的音量分别进行加权平均运算，从而取得被平滑化了的上述音量序列。

10.如权利要求8所述的声音合成装置，其特征在于，

在上述音量适应处理中，上述处理部执行这样的处理，即：将上述输入的声音数据中包含的作为韵律信息的音量序列及上述连接声音片段中包含的音量序列各自的时间尺度进行调整。

11.一种声音合成方法，在声音合成装置中使用，其特征在于，

上述声音合成装置，

将构成输入的声音数据中包含的作为韵律信息的音高序列的音高进行量化，将被量化了的上述音高进行加权移动平均运算，从而生成上述音高被平滑化后的音高序列，由此提取声调信息；

基于提取出的上述声调信息，将连接着多个声音片段的连接声音片段中包含的要素的至少一部分变更，基于将上述要素的至少一部分变更后的上述连接声音片段，输出合成声音。