CN101176146B

CN101176146B - 声音合成装置

Info

Publication number: CN101176146B
Application number: CN2006800168735A
Authority: CN
Inventors: 加藤弓子; 釜井孝浩
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2005-05-18
Filing date: 2006-05-02
Publication date: 2011-05-18
Anticipated expiration: 2026-05-02
Also published as: JPWO2006123539A1; JP4125362B2; WO2006123539A1; US20090234652A1; US8073696B2; CN101176146A

Abstract

本发明所涉及的声音合成装置包括：情感输入部(202)，获得被声音合成的声音波形的说话状态；韵律生成部(205)，生成韵律，该韵律是以获得的所述说话状态，说出经过语言处理的文本时的韵律；特征性音色选择部(203)，根据所述说话状态来选择观察到的特征性音色，且所述特征性音色是以获得的所述说话状态，说出所述文本时观察到的；音色时间位置推定部(604)，根据所述文本的音韵串、所述特征性音色、以及所述韵律，以构成所述音韵串的各个音韵为单位，来判断是否以所述特征性音色来说话，并决定音韵，该音韵位于以所述特征性音色来说话的说话位置；单元选择部(606)，根据所述音韵串、所述韵律以及所述说话位置，以所述说话状态说出所述文本，且生成声音波形，该声音波形是在所述说话位置决定单元所决定的说话位置，以特征性音色说出所述文本的声音波形；以及单元连接部(209)。

Description

声音合成装置

技术领域

本发明涉及一种声音合成装置，该声音合成装置可以生成能够表现发音器官的紧张以及松驰、情感、声音的表现力或说话风格的声音。

背景技术

以往，在能够表现情感等的声音合成装置或方法中提出的技术是：预先合成标准的或无表现力的声音，之后选择具有特殊矢量的声音并连接，所述具有特殊矢量的声音是指类似于上述合成的声音且与带有情感等表现力的声音相似的声音(例如，参照专利文献1)。

并且，还提出了这样的技术，即在将标准的或无表现力的声音合成为带有情感等表现力的声音的情况下，预先使变换合成参数的函数利用神经网络来学习，并根据学习后的变换函数，来变换合成标准的或无表现力的声音的参数串的参数(例如，参照专利文献2)。

而且，还提出了这样的技术，即对频率特性进行变形并变换音质，所述频率特性是指合成标准的或无表现力的声音的参数串的频率特性(例如，参照专利文献3)。

而且，还提出了这样的技术，即为了控制情感的程度，而利用根据情感的程度而变化率不同的参数变换函数，来变换参数，或为了混合多个情感，而对表现不同的两种合成参数串进行插值，从而生成参数串(例如，参照专利文献4)。

除此之外，通过含有各情感表现的自然声音，来统计学习各情感所分别对应的根据隐藏式马可夫模型的声音生成模型，并建立模型间的变换公式，将标准声音或无表现力的声音变换为表现情感的声音(例如，参照非专利文献1)。

图1示出了专利文献4所公开的以往的声音合成装置。

图1中的情感输入接口部109将输入的情感控制信息变换为参数变换信息，并输出到情感控制部108，所述参数变换信息是指图2所示的各个情感比率所经过的时间的变化。情感控制部108按照图3所示的预先规定的变换规则，将参数变换信息变换为参考参数，并控制韵律控制部103以及参数控制部104的工作。韵律控制部103根据语言处理部101所生成的音韵串和语言信息，生成无情感韵律模式之后，并按照在情感控制部108生成的参考参数，将生成的无情感韵律模式变换为带有情感的韵律模式。而且，参数控制部104利用上述的参考参数，将预先生成的谱或说话速度等无情感参数变换为情感参数，并将情感附加到合成声音中。

专利文献1 日本特开2004-279436号公报(第8-10页、图5)

专利文献2 日本特开平7-72900号公报(第6-7页、图1)

专利文献3 日本特开2002-268699号公报(第9-10页、图9)

专利文献4 日本特开2003-233388号公报(第8-10页、图1、图3、图6)

非专利文献1 田村正统、益子贵史、德田惠一以及小林隆夫、“HMM音声合成に基づく声質变换にぉける話者適応手法の検討(在基于HMM声音合成的音质变换中适应说话人的方法之研究)”音響学会講演論文集(音响学会讲演论文集)，1巻，PP.319-320，1998

然而，在通常的构成中是将各个情感按照图3所示的预先规定的一定的变换规则来进行参数变换的，并根据各个音的参数的变化率来表现情感的强度。为此，出现的课题是：在自然说话中可以见到的，即使是相同的情感种类、情感强度，也不能再现诸如一部分是假声，一部分是用力说话等音质的变化；以及通过使同一个情感或表现力的说话中的音质发生变化，来实现在表现情感或表现力的声音中经常见到的丰富的声音表现是困难的。

发明内容

本发明为了解决所述以往的课题，目的在于提供一种声音合成装置，通过使同一个情感或表现力的话语中的音质发生变化，从而可以实现在表现情感或表现力的声音中经常可以见到的丰富的声音表现。

本发明的某个局面所涉及的声音合成装置包括：说话状态获得单元，获得被声音合成的声音波形的说话状态；韵律生成单元，生成韵律，该韵律是以获得的所述说话状态，说处经过语言处理的文本时的韵律；特征性音色选择单元，根据所述说话状态来选择观察到的特征性音色，且所述特征性音色是以获得的所述说话状态，说出所述文本时观察到的；记录单元，根据音韵和韵律，记录用于判断所述特征性音色的发生难易度的规则；说话位置决定单元，根据所述文本的音韵串、所述特征性音色、所述韵律、以及所述规则，以构成所述音韵串的各个音韵为单位，判断是否以所述特征性音色来说话，并决定音韵，该音韵位于以所述特征性音色来说话的说话位置；波形合成单元，根据所述音韵串、所述韵律以及所述说话位置来生成声音波形，应用该声音波形以所述说话状态说出所述文本且该文本以特征性音色被说出，所述特征性音色在所述说话位置决定单元所决定的说话位置；以及频度决定单元，根据所述特征性音色，决定以所述特征性音色说话的频度；所述说话位置决定单元根据所述文本的音韵串、所述特征性音色、所述韵律、所述规则、以及所述频度，以构成所述音韵串的各个音韵为单位，判断是否以所述特征性音色来说话，并决定音韵，该音韵位于以所述特征性音色来说话的说话位置。

根据此构成，在带有“愤怒”等情感表现的话语中，可以混入以特征性而出现的“用力”等特征性音色。此时，混入有特征性音色的位置，由说话位置决定单元根据特征性音色、音韵串、韵律以及规则，并以音韵为单位来决定。为此，不是生成以特征性音色说出所有的音韵的声音波形，而是可以在适当的位置上混入特征性音色。因此，可以提供一种声音合成装置，该装置可以实现丰富的声音表现，该丰富的声音表现是通过在表现情感或表现力的声音中经常可以遇到的、使同一情感或表现力的说话中的音质变换来实现的。

通过所述频度决定单元，可以以特征性音色为单位来决定以该特征性音色说话的频度。为此，可以以适当的比率将特征性音色混入到声音中，从而可以实现即使是人听起来也不会感到不自然的丰富的声音表现。

最好是所述频度决定单元将节拍(mora)、音节、音素或声音合成单位作为单位，来决定所述频度。

根据此构成，可以精确地控制生成带有特征性音色声音的频度。

本发明的其它的方面所涉及的声音合成装置包括：说话状态获得单元，获得被声音合成的声音波形的说话状态；韵律生成单元，生成韵律，该韵律是以获得的所述说话状态，说处经过语言处理的文本时的韵律；特征性音色选择单元，根据所述说话状态来选择观察到的特征性音色，且所述特征性音色是以获得的所述说话状态，说出所述文本时观察到的；记录单元，根据音韵和韵律，记录用于判断所述特征性音色的发生难易度的规则；说话位置决定单元，根据所述文本的音韵串、所述特征性音色、所述韵律、以及所述规则，以构成所述音韵串的各个音韵为单位，判断是否以所述特征性音色来说话，并决定音韵，该音韵位于以所述特征性音色来说话的说话位置；波形合成单元，根据所述音韵串、所述韵律以及所述说话位置来生成声音波形，应用该声音波形以所述说话状态说出所述文本且该文本以特征性音色被说出，所述特征性音色在所述说话位置决定单元所决定的说话位置；所述特征性音色选择单元包括：要素音色记录部，将说话状态与一个组合对应起来记录，所述组合是多个特征性音色及以该特征性音色说话的频度的组合；以及选择部，从所述要素音色记录部中选择一个组合，该组合是与所获得的所述说话状态相对应的所述多个特征性音色及以该特征性音色说话的频度的组合；所述说话位置决定单元根据所述文本的音韵串、所述多个特征性音色及以该所述特征性音色说话的频度的组合、所述韵律、以及所述规则，以构成所述音韵串的各个音韵为单位，判断是否以所述多个特征性音色中的某一个来说话，并决定音韵，该音韵位于以各个特征性音色来说话的说话位置。

根据此构成，可以将以多个特征性音色进行的说话混入到以一个说话状态的说话中。为此，可以提供一种可以实现更加丰富的声音表现的声音合成装置。

并且，多种特征性音色的平衡可以得到适当的控制，并可以精确地控制合成的声音表现。

通过本发明的声音合成装置，可以按照发音器官的紧张或松驰、情感、声音的表现力、或说话风格，通过观察到的自然声音中每一个细节中的假声或用力说话等特征性音色，来再现音质的变化。并且，通过本发明的声音合成装置根据此特征性的音色的声音发生频度，可以控制发音器官的紧张或松驰、情感、声音的表现力、或说话风格的表现强度，而且，可以在声音中的适当的时间位置上生成特征性音色的声音。并且，通过本发明的声音合成装置，可以在一个说话声音中均衡地生成具有多种特征性音色的声音，从而可以控制复杂的声音表现。

附图说明

图1是通常的声音合成装置的方框图。

图2是通常的声音合成装置中的情感的混合方法的模式图。

图3是通常的声音合成装置中的将无情感声音变换为情感声音的变换函数的模式图。

图4是本发明的实施例1中的声音合成装置的方框图。

图5是本发明的实施例1中的声音合成装置的一部分的方框图。

图6是图5所示出的声音合成装置的推定公式阈值记录部中所记录的信息的一示例图。

图7(a)～图7(d)是根据实际声音中特征性音色的声音的音韵种类，示出发生频度的图。

图8是对在实际声音中所观察到的特征性音色的声音的发生位置和推定出的特征性音色的声音的时间位置进行比较的示例图。

图9是本发明的实施例1中的声音合成装置的工作流程图。

图10是用于说明作成推定公式以及判断阈值的方法的流程图。

图11示出了横轴表示“用力的难易度”，纵轴表示“声音数据中的节拍(mora)数的图。

图12是本发明的实施例1中的声音合成装置的方框图。

图13是本发明的实施例1中的声音合成装置的工作流程图。

图14是本发明的实施例1中的声音合成装置的方框图。

图15是本发明的实施例1中的声音合成装置的工作流程图。

图16是本发明的实施例1中的声音合成装置的方框图。

图17是本发明的实施例1中的声音合成装置的工作流程图。

图18是计算机构成的示例图。

图19是本发明的实施例2中的声音合成装置的方框图。

图20是本发明的实施例2中的声音合成装置的一部分的方框图。

图21是表示实际声音中的特征性音色的声音的发生频度和表现的强度之间的关系图。

图22是本发明的实施例2中的声音合成装置的工作流程图。

图23是示出特征性音色的声音的发生频度和表现强度之间的关系模式图。

图24是示出特征性音色音韵的发生概率和推定公式的值之间的关系模式图。

图25是本发明的实施例3中的声音合成装置的工作流程图。

图26是本发明的实施例3中，各个情感表现所对应的一种以上的特征性音色及其出现频度的信息的示例图。

图27是本发明实施例1中的声音合成装置的工作流程图。

图28是在合成声音时的特殊声音的位置的示例图。

图29是图4所示出的声音合成装置的变形构成例的方框图。

图30是图19所示出的声音合成装置的变形构成例的方框图。

图31是图25所示出的声音合成装置的变形构成例的方框图。

图32是语言处理完毕后的文本的示例图。

图33是图4以及图19中所示的声音合成装置的变形构成例的一部分的示例图。

图34是图25所示出的声音合成装置的变形构成例的一部分的示例图。

图35是附有标记的文本的示例图。

图36是图4以及图19所示出的声音合成装置的变形构成例的一部分的示例图。

图37是图25所示出的声音合成装置的变形构成例的一部分的示例图。

具体实施方式

(实施例1)

图4以及图5是本发明的实施例1所涉及的声音合成装置的功能方框图。图6是图5所示出的声音合成装置的推定公式阈值记录部中所存储的信息的示例图。图7A～图7D是按照子音对自然发音的声音中的特征性音色出现频度进行概括表示的图。图8是预测特殊声音的发生位置的例子的模式图。图9是实施例1中的声音合成装置的工作流程图。

如图4所示，实施例1所涉及的声音合成装置包括：情感输入部 202、特征性音色选择部203、语言处理部101、韵律生成部205、特征性音色时间位置推定部604、标准声音单元数据库207、特殊声音单元数据库208、单元选择部606、单元连接部209、以及开关210。

情感输入部202是一处理部，接受情感控制信息的输入，并输出赋予在合成的声音中的情感种类。

特征性音色选择部203是另一处理部，按照由情感输入部202输出的情感种类，选择特殊声音的种类，并输出音色指定信息，所述特殊声音具有合成的声音中应该生成的特征性音色。语言处理部101是另一处理部，获得输入文本并生成音韵串以及语言信息。韵律生成部205是另一处理部，从情感输入部202获得情感种类信息，而且，从语言处理部101获得音韵串以及语言信息，并生成韵律信息。在此，本说明书中所定义的韵律信息包括：重音信息、重音句的划分信息、基本频率、强度、以及音韵和无音区间的时间长度。

特征性音色时间位置推定部604是处理部，获得音色指定信息、音韵串、语言信息以及韵律信息，并决定音韵，该音韵是在合成声音中生成特征性音色即生成特殊声音的音韵。对于特征性音色时间位置推定部604的具体构成待后述。

标准声音单元数据库207是一存储装置，是存储声音单元的硬盘等，在标准声音单元数据库207所存储的声音单元是用于生成非特征性音色的标准的声音的声音单元。特殊声音单元数据库208a、208b、208c是另一存储装置，是按照各个音色的种类来存储声音单元的硬盘等，在以上特殊声音单元数据库所存储的声音单元是用于生成特征性音色的声音的声音单元。单元选择部606是另一处理部，针对生成指定的特殊声音的音韵，对开关210进行切换，从符合的特殊声音单元数据库208中选择声音单元，对于生成指定的特殊声音的音韵以外的音韵，则从标准声音单元数据库207选择声音单元。

单元连接部209是另一处理部，连接单元选择部606所选择的声音单元，并生成声音波形。开关210是开关，在单元选择部606从标准声音单元数据库207或特殊声音单元数据库208的某一个中选择声音单元时，所述开关按照指定的声音单元的种类，对连接的数据库进行切换。

如图5所示，特征性音色时间位置推定部604包括：推定公式阈值记录部620、推定公式选择部621以及特征性音色音韵推定部622。

如图6所示，推定公式阈值记录部620按照特征性音色的种类，存储推定公式和阈值，所述推定公式对生成特殊声音的音韵进行推定。推定公式选择部621是另一处理部，按照以音色指定信息所指定的音色的种类，从推定公式阈值记录部620中选择推定公式和阈值。特征性音色音韵推定部622也是处理部，获得音韵串以及韵律信息，并根据推定公式和阈值来决定是否以特殊声音生成各个音韵。

在根据实施例1的构成对声音合成装置的工作进行说明之前，先对特征性音色时间位置推定部604推定特殊声音的合成声音中的时间位置的背景进行说明。到目前为止受到关注的是，对于带有情感或表现力的声音的表现，尤其是对于音质的变化，使话语从开始到结束产生相同的变化，并开始了实现这一目标的技术开发。然而，可以了解到的是，对于带有情感或表现力的声音，即使在一定的说话风格中也会有各种各样音质的声音混入，因此，要通过对声音的情感或表现力赋予特征来形成声音的印象(例如，日本音响学会会刊51卷11号(1995)，pp869-875，粕谷英树，杨长盛著“音源から见た声质(从音源的角度来看音质)”)。而且，在本说明书中，将一种声音的表现称为“说话状态”，这种声音的表现是指在将说话人的状况或意图等传达给听话人时，以超出语言意思以上或与语言意思不同的意思来传达。说话状态由一种信息来决定，这种信息所包括的概念是：发音器官的紧张以及松驰等解剖学上的或生理上的状况、情感或情绪等心理状态、表现力等反应心理状态的现象、说话风格或说话方式等说话人的态度或行动样式等。按照后述的实施例，作为决定说话状态的信息例如有：像“愤怒”、“欢快”、“悲伤”、“愤怒、3”这样的情感的种类及情感的强度等。

在此，在本发明中首先根据同一个文本对说出的50个句子进行了无表现力的声音调查以及带有情感的声音调查。图7A是针对说话人1并以节拍(mora)内的子音为单位，示出以带有“强烈的愤怒”的情感表现的声音中的“用力”音(或所述文献中表现为“粗糙的声音(harshvoice：刺耳的声音)”)来发音的节拍的频度的图表，图7B是针对说话人2并以节拍内的子音为单位，示出以带有“强烈的愤怒”的情感表现的声音中的“用力”音来发音的节拍的频度的图表。图7C以及图7D是针对分别与图7A及图7B相同的说话人，并以节拍内的子音为单位，示出以带有“中等程度愤怒”的情感表现的声音中的“用力”音的节拍的频度的图表。并且，所谓“节拍”是指，日语的声音中韵律的基本单位，其可以由单一的短元音、子音和短元音、子音和半元音和短元音构成，也可以仅由节拍音素构成。特殊声音的发生频度因子音的种类而发生变化，例如在“t”、“k”、“d”、“m”、“n”或无子音的情况下发生频度高，在“p”、“ch”、“ts”、“f”等情况下发生频度低。

对图7A以及图7B所示出的两名发话人的图表进行比较，则可以知道与上述的根据子音的种类特殊声音的发生频度具有相同的规律。反过来，若要将更自然的情感或表现力赋予到合成声音中，则需要在说话中的更确切的部分生成具有特征性音色的声音。并且，由于说话人具有共同的变化规律，因此对于合成的声音的音韵串，特殊声音的发生位置可以通过音韵的种类等信息来推定。

图8示出了根据推定公式，对例1“じゅつぷんほどかかります(大约要花十分钟)”和例2“あたたまりました(变暖和了)”，以“用力”的声音来发音的节拍进行推定的结果，所述推定公式是根据与图7A～图7D相同的数据，利用统计学习法的一种，即量化II类作成的。对于在自然的说话声音中发出特殊声音的节拍，以及根据推定公式阈值记录部中所记录的推定公式F1的特殊声音的发生所预测的节拍，分别在假名下划线表示。

图8所示的预测特殊声音的发生的节拍是根据所述的量化II类的推定公式F1而确定的。推定公式F1是根据量化II类而作成的，具体是对于结果学习所用的数据的各节拍，使不同的信息作为独立的变数来表现，并将“用力”的声音是否发生了的二值作为从属变数来表现，其中，不同的信息是指：示出节拍中所包含的子音的种类以及元音的种类或如音韵范畴这样的音韵种类的信息，以及示出重音句内节拍位置的信息。并且，图8所示的特殊声音的发生所预测的节拍是为了使学习用的数据的特殊声音的发生位置的正确率约成为75％，而决定阈值时的推定结果。图8示出了根据与音韵的种类或重音相关的信息可以高精度地推定特殊声音的发生位置。

以下利用图9对以上所描述的声音合成装置的工作进行说明。

首先，情感控制信息被输入到情感输入部202，并抽出情感种类(S2001(步骤2001))。情感控制信息是通过界面由用户选择输入的，所述界面提示出几种情感的种类，例如“愤怒”、“欢快”、“悲伤”等。在此，以在S2001输入“愤怒”为例。

特征性音色选择部203根据输入的情感种类“愤怒”，选择“愤怒”的声音中的特征性表现的音色，例如选择“用力”(S2002)。

其次，推定公式选择部621获得音色指定信息，参考推定公式阈值记录部620，根据按照指定的音色而设定的推定公式和判断阈值，来获得推定公式F1和判断阈值TH1，所述推定公式F1和判断阈值TH1与从特征性音色选择部203获得的音色指定信息相对应，即与“愤怒”中的特征性表现“用力”的音色相对应。

图10是用于说明作成推定公式以及判断阈值的方法的流程图。在此，对选择了“用力”这一特征性音色的情况进行说明。

首先，对用于学习的声音数据中的各节拍设定推定公式的独立变数，即设定子音的种类、元音的种类、以及重音句中的正顺位置(S2)。并且，对所述各节拍设定推定公式的从属变数，即设定以二值表示是否以特征性音色(用力)发音了的变数(S4)。其次，按照量化II类算出各独立变数的范畴加权，即算出各个子音种类的加权、各个元音种类的加权、以及各个重音句中的正顺位置的加权(S6)。并且，通过将各独立变数的范畴加权适用于声音数据中的各节拍的属性条件，从而算出以特征性音色(用力)发音的“用力难易度”(S8)。

图11的图表中，横轴表示“用力难易度”，纵轴表示“声音数据中的节拍数”，“用力难易度”以从“-5”到“5”的数值来表示，数值越小发音时就越容易用力。带有阴影的条形图表示在实际发音时以特征性音色发音(用力)的节拍的频度，不带阴影的条形图表示在实际发音时没有以特征性音色发音(没有用力)的节拍的频度。

在此图表中，对在实际中以特征性音色(用力)发音的节拍群，和没有以特征性音色(用力)发音的节拍群的“用力难易度”的值进行比较，为了使以特征性音色(用力)发音的节拍群和没有以特征性音色(用力)发音的节拍群这两群的正确率均超过75％，而根据“用力难易”来设定用于判断以特征性音色(用力)发音的阈值(S10)。

如上所述，可以求出在“愤怒”中的特征性表现“用力”的音色所对应的推定公式F1和判断阈值TH1。

并且，对于“欢快”或“悲伤”等情感所对应的特殊声音，也是按照特殊声音来设定推定公式和阈值的。

另一方面，语言处理部101对输入的文本进行词素分析以及结构分析，并输出音韵串和语言信息(S2005)，所述语言信息是指：重音位置、词素的词性、句节间的联系以及句节间的距离等。

韵律生成部205除获得音韵串和语言信息以外，还获得情感种类信息，即指定情感种类“愤怒”的信息，并生成传达语言意思且符合指定的情感种类“愤怒”的韵律信息(S2006)。

特征性音色音韵推定部622获得在S2005生成的音韵串和在S2006生成的韵律信息，并将在S6003选择的推定公式适用于音韵串中的各音韵来求值，并与在S6003选择的阈值进行比较。特征性音色音韵推定部622在推定公式的值超过阈值的情况下，将该音韵决定为以特殊声音来发音(S6004)。即，特征性音色音韵推定部622将该音韵的子音、元音、以及重音区内的位置适用于根据量化II类的推定公式，并求出推定公式的值，所述推定公式推定“愤怒”所对应的特殊声音“用力”的发生。特征性音色音韵推定部622在求出的值超过阈值的情况下，判断该音韵应该以“用力”的特殊声音来生成合成音。

单元选择部606从韵律生成部205获得音韵串和韵律信息。并且，单元选择部606获得以特殊声音生成合成音的音韵的信息，在适用于合成的音韵串后，将音韵串变换为单元单位，并决定使用特殊声音单元的单元单位(S6007)，所述特殊声音是在S6004由特征性音色音韵推定部622决定的。

而且，单元选择部606按照使用在S6007决定的特殊声音单元的单元位置和不使用的单元位置，通过开关210的切换，从而与标准声音单元数据库207和特殊声音单元数据库208的某一方相连接，选择合成时所必要的声音单元(S2008)，所述特殊声音单元数据库208存储被指定了种类的特殊声音单元。

在此例中，开关210对标准声音单元数据库207和特殊声音单元数据库208中的“用力”的单元数据库进行切换。

单元连接部209根据波形重叠方式，按照获得的韵律信息将在S2008选择的单元进行变形并连接(S2009)，输出声音波形(S2010)。而且，单元的连接虽然是在S2008根据波形重叠方式进行的，但也可以采用其它的方法。

根据所涉及的构成，声音合成装置包括：情感输入部202，以接受情感种类的输入；特征性音色选择部203，以选择情感种类所对应的特征性音色的种类；特征性音色时间位置推定部604，其包括推定公式阈值记录部620、推定公式选择部621以及特征性音色音韵推定部622，且该特征性音色时间位置推定部604决定音韵，该音韵是在合成的声音中以具有特征性音色的特殊声音应该生成的音韵；以及特殊声音单元数据库208，其与标准声音单元数据库207不同，按照各个音色存储带有情感的声音中的特殊声音的单元。据此，本实施例所涉及的声音合成装置可以按照输入的情感的种类，根据音韵串、韵律信息或语言信息等，以节拍、音节或音素等音韵的单位，对时间位置进行推定，从而生成再现说话中所表现的丰富的音质变化的合成声音，所述时间位置是应该生成带有情感的说话声音的一部分中所出现的特征性音色的声音的时间位置，所述说话中所表现的丰富的音质变化是由情感、表现力、说话风格或人际关系等所表现出来的。

而且，本实施例所涉及的声音合成装置不是对韵律或音质进行变化，而是可以以精确的音韵位置正确地模拟人们在说话中自然的且普遍进行的行动(即，由特征性的音质的发音所表现的情感或表现力等)。因此，可以提供一种表现能力高的合成声音装置，其可以在没有不协调感的情况下直观地捕捉情感或表现力的种类。

(变形例1)

而且，在本实施例中设置了单元选择部606、标准声音单元数据库207、特殊声音单元数据库208、单元连接部209，并示出了根据波形重叠法以声音合成方式的实现方法，并且还可以如图12所示，在声音合成装置中设置选择参数单元的单元选择部706、标准声音参数单元数据库307、特殊声音变换规则存储部308、参数变形部309、以及波形生成部310。

标准声音参数单元数据库307是一存储装置，存储以参数描述的声音单元。特殊声音变换规则存储部308是另一存储装置，其存储特殊声音变换规则，该特殊声音变换规则用于从标准声音参数中生成特征性音色的声音的参数。参数变形部309是一处理部，其按照特殊声音变换规则，将标准声音的参数变形，并生成所希望的韵律的声音的参数串(合成参数串)。波形生成部310是另一处理部，由合成参数串生成声音波形。

图13是图12中所示出的声音合成装置的工作流程图。对于与图9 中所示的处理相同的处理，在此省略说明。

在本实施例的图9所示的S6004中，特征性音色音韵推定部622在合成的声音中决定生成特殊声音的音韵，而在图13中示出了以节拍来指定音韵的情况。

特征音色音韵推定部622决定生成特殊声音的节拍(S6004)。单元选择部706将音韵串变换为单元单位串，根据单元种类和语言信息以及韵律信息，从标准声音参数单元数据库307选择参数单元(S3007)。参数变形部309将在S3007的单元选择部706所选择的参数单元串变换为节拍单位，并按照在S6004生成特征性音色音韵推定部622所决定的合成声音中的特殊声音的节拍位置，来确定应该变换为特殊声音的参数串(S7008)。

而且，参数变形部309根据将标准声音变换为特殊声音的变换规则，获得在S2002所选择的特殊声音所对应的变换规则(S3009)，所述将标准声音变换为特殊声音的变换规则是按照特殊声音的种类被存储在特殊声音变换规则存储部308中的。参数变形部309按照变换规则对在S7008确定的参数串进行变换(S3010)，并与韵律信息一起变形(S3011)。

波形生成部310从参数变形部309获得被输出的变形后的参数串，生成声音波形并输出(S3021)。

(变形例2)

而且，在本实施例中设置了单元选择部606、标准声音单元数据库207、特殊声音单元数据库208、单元连接部209，并示出了根据波形重叠法以声音合成方式的实现方法，并且还可以如图14所示，在声音合成装置中设置生成标准声音的参数串的合成参数生成部406、特殊声音变换规则存储部308、参数变形部309以及波形生成部310，所述参数变形部309按照变换规则根据标准声音参数生成特殊声音，并实现所希望的韵律的声音。

图15是图14所示的声音合成装置的工作流程图。对于与图9所示的处理相同的处理，省略其说明。

本声音合成装置与图9所示的本实施例所涉及的声音合成装置的不同之处是，S6004以后的处理不同。即，S6004的处理以后，合成参数生成部406根据音韵串以及语言信息和韵律信息，按照例如利用隐藏式马可夫模型(HMM)的统计学习而预先决定的规则，来生成标准声音的合成参数串(S4007)，所述音韵串以及语言信息是在S2005由语言处理部101生成的，所述韵律信息是在S2006由韵律生成部205生成的。

参数变形部309根据将标准声音变换为特殊声音的变换规则，获得在S2002所选择的特殊声音所对应的变换规则(S3009)，所述将标准声音变换为特殊声音的变换规则是按照特殊声音的种类被存储在特殊声音变换规则存储部308中的。参数变形部309按照变换规则，对相当于变形为特殊声音的音韵的参数串进行变换，并将该音韵的参数变换为特殊声音的参数(S3010)。波形生成部310从参数变形部309获得被输出的变形后的参数串，生成声音波形并输出(S3021)。

(变形例3)

而且，在本实施例中设置了单元选择部206、标准声音单元数据库207、特殊声音单元数据库208、单元连接部209，并示出了根据波形重叠法以声音合成方式的实现方法，并且还可以如图16所示，在声音合成装置中设置标准声音参数生成部507，以生成标准声音的参数串；特殊声音参数生成部508(特殊声音参数生成部508a、508b、508c)中的至少一个，以生成特征性音色的声音的参数串；开关509，对标准声音参数生成部507和特殊声音参数生成部508进行切换；以及波形生成部310，根据合成参数串生成声音波形。

图17是图16所示的声音合成装置的工作流程图。对于与图9所示的处理相同的处理，省略其说明。

在S2006的处理之后，根据音韵信息和音色指定，特征性音色音韵特定部622按照音韵操作开关809，对生成合成参数的参数生成部进行切换，从而使韵律生成部205与标准声音参数生成部507以及与音色指定相对应的生成特殊声音的特殊声音参数生成部508中的某一个相连接，所述音韵信息是生成在S6004生成的特殊声音的音韵信息，所述音色指定是在S2002被生成的。并且，特征性音色音韵推定部622与生成在S6004生成的特殊声音的音韵信息相对应，生成合成参数串(S8008)，该合成参数串中分配有标准声音和特殊声音的参数。

波形生成部310根据参数串生成并输出声音波形(S3021)。

而且，在本实施例中是将情感强度固定，并利用按照各个情感种类而存储的推定公式和阈值，来推定生成特殊声音的音韵位置的，不过，也可以是将多个情感强度分为阶段，按照情感种类和情感强度的阶段存储推定公式和阈值，并利用情感种类和情感强度的推定公式和阈值，来推定生成特殊声音的音韵位置。

而且，若将本实施例1中的声音合成装置在LSI(大规模集成电路)中实现，则可以将特征性音色选择部203、特征性音色时间位置推定部604、语言处理部101、韵律生成部205、单元选择部606以及单元连接部209全部以一个LSI来实现。并且，各个处理部也可以以一个LSI来实现。而且，各个处理部也可以以多个LSI来实现。标准声音单元数据库207以及特殊声音单元数据库208a、208b、208c也可以通过LSI外部的存储装置来实现，也可以通过LSI内部所具备的存储器来实现。在以LSI外部的存储装置来实现该数据库的情况下，可以通过因特网来获得数据库的数据。

在此，虽然称作LSI，但根据集成度的不同，也可以称作IC(集成电路)、系统LSI、超级LSI、极超级LSI。

并且，集成电路化的方法也不仅限于LSI，也可以通过专用电路或通用处理器来实现。LSI制造后，也可以利用能够程序化的现场可编程门阵列(FPGA：Field Programmable Gate Array)，或利用可再构成LSI内部的电路单元的接续或设定的可重装处理器。

而且，若随着半导体技术的进步或派生的其它技术而出现可以替换LSI等集成电路的技术的情况下，当然也可以利用这些新出现的技术使功能块集成化。也会有适应生物技术的可能性。

而且，也可以以计算机来实现本实施例1中的声音合成装置。图18是计算机构成的一示例图。计算机1200包括：输入部1202、存储器1204、CPU1206、记录部1208、以及输出部1210。输入部1202是接受由外部输入的数据的处理部，包括键盘、鼠标、声音输入装置、以及通信I/F(接口)部等。存储器1204是临时保存程序或数据的存储装置。CPU1206是执行程序的处理部。记录部1208是记录程序或数据的装置，由硬盘等构成。输出部1210是向外部输出数据的处理部，包括监视器或扬声器等。

在以计算机来实现声音合成装置的情况下，特征性音色选择部203、特征性音色时间位置推定部604、语言处理部101、韵律生成部205、单元选择部606、以及单元连接部209，与CPU1206上执行的程序相对应，标准声音单元数据库207以及特殊声音单元数据库208a、208b、208c被记录在记录部1208。并且，在CPU1206计算的结果暂时被记录到存储器1204或记录部1208。存储器1204以及记录部1208也可以利用于与特征性音色选择部203等各处理部进行的数据传递上。并且，用于使计算机执行本实施例所涉及的声音合成装置的程序也可以被记录到软盘(注册商标)、CD-ROM、DVD-ROM、不发挥性存储器等中，也可以通过因特网被读入到计算机1200的CPU1206中。

在此所公开的实施例中的所有的内容仅为示例，而不受这些内容限制。本发明的范围不是以上所说明的内容，而是权利要求中所示出的范围，且意味着包括与权利要求的范围均等之意以及包括范围内所有的变更。

(实施例2)

图19以及图20是本发明实施例2的声音合成装置的功能方框图。对于图19中与图4及图5相同的构成要素赋予相同的符号，省略详细说明。

如图19所示，实施例2所涉及的声音合成装置包括：情感输入部202、特征性音色选择部203、语言处理部101、韵律生成部205、特征性音色音韵频度决定部204、特征性音色时间位置推定部804、单元选择部606、以及单元连接部209。

情感输入部202是输出情感种类的处理部。特征性音色选择部203是输出音色指定信息的处理部。语言处理部101是输出音韵串和语言信息的处理部。韵律生成部205是生成韵律信息的处理部。

特征性音色音韵频度决定部204是一处理部，获得音色指定信息、音韵串、语言信息以及韵律信息，并决定生成特殊声音的频度，该特殊声音是合成的声音中的特征性音色。特征性音色时间位置推定部804是另一处理部，其按照特征性音色音韵频度决定部204所生成的频度，来决定音韵，该音韵是生成合成的声音中的特殊声音的音韵。单元选择部606是另一处理部，对于生成被指定的特殊声音的音韵，可以通过切换开关从而从符合的特殊声音单元数据库208选择声音单元，对于除此之外的音韵，可以从标准声音单元数据库207选择声音单元。单元接续部209是另一处理部，以连接单元并生成声音波形。

换而言之，特征性音色音韵频度决定部204是这样的处理部，即按照从情感输入部202输出的情感的强度，决定在合成的声音中以怎样的频度来使用特征性音色选择部203所选择的特殊声音。如图20所示，特征性音色音韵频度决定部204包括：情感强度频度变换规则记录部220和情感强度特征性音色频度变换部221。

情感强度频度变换规则记录部220是一记录装置，其记录规则，该规则是指按照赋予在合成声音的情感或表现力，将预先设定的情感强度变换为特殊声音的生成频度。情感强度特征性音色频度变换部221是一处理部，将与赋予在合成声音的情感或表现力相对应的情感强度频度变换规则由情感强度频度变换规则记录部220来选择，并将情感强度变换为特殊声音的生成频度。

特征性音色时间位置推定部804包括：推定公式记录部820、推定公式选择部821、概率分布保持部822、判断阈值决定部823以及特征性音色音韵推定部622。

推定公式记录部820是另一记录装置，按照特征性音色的种类记录推定公式，该推定公式推定生成特殊声音的音韵。推定公式选择部821是另一处理部，获得音色指定信息，根据推定公式阈值记录部620按照音色的种类，来选择推定公式。概率分布保持部822是另一记录装置，按照特征性音色的种类记录概率分布，即记录特殊声音的发生概率和推定公式的值之间的关系。判断阈值决定部823是另一处理部，获得推定公式，并参考概率分布保持部822中所存储的生成的特殊声音所对应的特殊声音的概率分布，来决定对于推定公式的值的阈值，且该阈值用于判断是否生成特殊声音。特征性音色音韵推定部622是另一处理部，获得音韵串以及韵律信息，并根据推定公式和阈值来决定是否以特殊声音生成各个音韵。

在说明根据实施例2所构成的声音合成装置的工作之前，下面，先对特征性音色音韵频度决定部204按照情感的强度决定特殊声音的合成音中的发生频度的背景进行说明。到目前为止，对于带有情感或表现力的声音的表现，尤其是对于音质的变化，使说话从开始到结束产生相同的变化受到关注，并开始了为实现这一目标的技术开发。然而，可以知道的是，对于带有情感或表现力的声音，即使在规定的说话风格中也会有各种各样的音质的声音混入，因此，要通过对声音的情感或表现力赋予特征来形成声音的印象(例如，日本音响学会会刊51卷11号(1995)，pp869-875，粕谷英树，杨长盛著“音源から见た声质(从音源的角度来看音质)”)。

在此，在本发明中首先根据同一个文本对说出的50个句子进行了无表现力的声音调查、带有中等程度的情感的声音调查、以及带有强烈情感的声音调查。图21示出了两名说话人在带有“愤怒”的情感表达的声音中的“用力”的声音的发生频度，即接近于上述文献中所描述的“粗糙的声音(harsh voice)”的声音的发生频率。从整体上来看说话人1的“用力”的声音或被称作“粗糙的声音(harsh voice)”的声音的发生频度均较高，而说话人2的发生频度较低。像这样，尽管因说话人的不同而发生频度也不同，但共同之处是，随着情感的强度的增强，“用力”的声音的频度也会增加。因此，可以说在带有情感或表现力的声音中，带有说话中所出现的特征性音色的声音的频度是与说话中的情感或表现力的强烈有关的。

而且，图7A是按照节拍内的子音，示出了说话人1在以“用力”的声音来发音时的节拍的频度的图表，所述“用力”的声音是带有“强烈的愤怒”的情感表现的声音中的声音。图7B是按照节拍内的子音，示出了说话人2在以“用力”的声音来发音时的节拍的频度的图表，所述“用力”的声音是带有“强烈的愤怒”的情感表现的声音中的声音。同样，图7C是示出说话人1在以带有“中等程度的愤怒”的情感表现的声音中的“用力”的声音的频度的图表。图7D是示出说话人2在以带有“中等程度的愤怒”的情感表现的声音中的“用力”的声音的频度的图表。

如实施例1中的说明，对于图7A和图7B所示出的图表中的“用力”的声音，说话人1和说话人2之间的共同之处是，在子音“t”、“k”、“d”、“m”、“n”或无子音的情况下，发生频度高，在子音“p”、“ch”、“ts”、“f”等情况下，则发生频度低。不仅如此，在对图7A以及图7C所示的图表之间进行比较，以及对图7B以及图7D所示的图表之间进行比较的情况下，可以明确同样的倾向，即：在带有“强烈的愤怒”的情感表现的声音和带有“中等程度的愤怒”的情感表现的声音中，在子音“t”、“k”、“d”、“m”、“n”或无子音的情况下，发生频度高，在子音“p”、“ch”、“ts”、“f”等情况下，则发生频度低，像这样根据子音的种类而特殊声音的发生频度不同，且因情感的强度而发生频度也发生变化。而且，即使情感的强度不同发生频度的变化倾向也会相同，但是对于特殊声音的全体的发生频度而言，则因情感强度的不同而不同，就这一点而言，说话人1 和说话人2是共同的。反过来，控制情感或表现力的强度，而以更加自然的表现赋予到合成声音中，则需要在说话中的更适当的部分生成具有特征性音色的声音，不仅如此，而且还需要以适当的频度来生成具有这种特征性音色的声音。

特征性音色的发生规律在说话人中具有相同的倾向，通过这一点，对于合成的声音的音韵串，特殊声音的发生位置可以根据音韵的种类等信息来推定，这在实施例1中已经说明过了，不过，进一步而言，即使情感的强度发生变化，特殊声音的发生倾向也不会发生变化，整体的发生频度随着情感或表现力的强度而发生变化。据此，可以对符合将要合成的声音的情感或表现力的强度的特殊声音的发生频度进行设定，在实现发生频度的状态下，可以对声音中的特殊声音的发生位置进行推定。

以下，将以图22来对声音合成装置的工作进行说明。在图22中，对于与图9相同的工作步骤赋予相同的符号，在此省略说明。

首先，向情感输入部202输入情感控制信息，例如若输入“愤怒、3”，则情感种类“愤怒”和情感强度“3”被抽出(S2001)。情感强度例如可以用五个阶段来表现，将无表现力的声音设为0，将仅有很少的情感或略带表现力的设为1，将作为声音表现且通常能够观察到的最强的表现设为5，数字越大情感或表现力的强度就越高。

特征性音色选择部203根据情感输入部202所输出的情感种类“愤怒”以及情感或表现力的强度(例如，情感强度信息“3”)，来选择特征性音色，例如选择“愤怒”的声音中所发生的“用力”的声音(S2002)。

其次，情感强度特征性音色频度变换部221根据指定“用力”的声音的音色指定信息和情感强度信息“3”，并参考情感强度频度来变换规则记录部220，以获得按照指定的音色而设定的情感强度频度变换规则(S2003)。在此例子中是获得用于表现“愤怒”的“用力”的声音的变换规则。变换规则是一函数，此函数例如示出图23所示的特殊声音的发生频度和情感或表现力强度之间的关系。函数是这样被得到的，即按照情感或表现力来收集示出各种强度的声音，并根据统计模式，来学习声音中特殊声音所观察到的音韵的频度和该声音的情感或表现力的强度之间的关系。而且，变换规则除作为函数进行指定以外，还可以将各个强度所对应的频度作为对应表进行记录。

情感强度特征性音色频度变换部221可如图23那样，使指定的情感强度适用于变换规则，决定指定的情感强度所对应的合成声音中使用特殊声音单元的频度(S2004)。另一方面，语言处理部101对输入的文本进行词素分析以及结构分析，并输出音韵串和语言信息(S2005)。韵律生成部205获得音韵串和语言信息，而且还获得情感种类信息，并生成韵律信息(S2006)。

推定公式选择部821获得特殊声音的指定和特殊声音的频度，并参考推定公式记录部820，从按照特殊声音而设定的推定公式中获得特殊声音“用力”所对应的推定公式(S9001)。判断阈值决定部823获得推定公式和频度，并通过概率分布保持部822获得指定的特殊声音所对应的推定公式的概率分布，如图24所示，对在S2004决定的特殊声音的频度所对应的推定公式来决定判断阈值(S9002)。

概率分布例如可以按照以下这样设定。与实施例1同样，推定公式是量化II类的情况下，根据该音韵的子音和元音的种类、重音句内的位置等属性来决定值。该值示出了在该音韵，特殊声音的发生难易度。如刚才以图7A～图7D以及图21说明的那样，特殊声音的发生难易度的变化，在说话人、情感或表现力的强度方面是共同的。为此，根据量化II类的推定公式不必按照情感或表现力的强度来变更，即使强度不同也可以根据共同的推定公式来求出各个音韵的“特殊声音的发生难易度”。因此，将根据愤怒的强度为5的声音数据而作成的推定公式适用于愤怒的强度为4、3、2、1的声音数据，并对各个强度的声音求出成为判断阈值的推定公式的值，所述判断阈值是对于实际观察到的特殊声音正确率为75％的判断阈值。如图21所示，由于随着情感或表现力的强度而特殊声音的发生频度发生变化，因此，将以各个强度的声音数据观察到的特殊声音的发生频度，和能够以75％的正确率来判断特殊声音的发生的推定公式的值，并绘图到图24的图表的轴上，然后通过仿样内插法或通过向S形曲线近似等，进行平滑连接，从而设定概率分布，所述各个强度的声音数据是指愤怒的强度为4、3、2、1的声音数据。而且，概率分布不仅限于图24那样的函数，还可以作为对应表进行记录，该对应表是推定公式的值和特殊声音的发生频度相对应的表。

特征性音色音韵推定部622获得在S2005生成的音韵串和在S2006生成的韵律信息，将在S9001选择的推定公式适用于音韵串中的各音韵并求值，并与在S9002决定的阈值进行比较，在推定公式的值超过阈值的情况下，将该音韵决定为以特殊声音来发音(S6004)。

单元选择部606从韵律生成部205获得音韵串和韵律信息，并获得以特殊声音生成合成音的音韵的信息，在适用于合成的音韵串后，将音韵串变换为单元单位，并决定使用特殊声音单元的单元单位(S6007)，所述特殊声音是在S6004由特征性音色音韵推定部622决定的。而且，单元选择部606按照在S6007决定的使用特殊声音单元的单元位置和不使用的单元位置，对开关210进行切换，从而与标准声音单元数据库207和特殊声音单元数据库208中的某一个相连接，并选择在合成中所必要的声音单元(S2008)，所述特殊声音单元数据库208存储指定的种类的特殊声音单元。单元接续部209根据波形重叠方式将在S2008选择的单元按照获得的韵律信息来变形并连接(S2009)，并输出声音波形(S2010)。而且，在S2008根据波形重叠方式连接了单元，也可以用除此之外的方法来连接单元。

根据所涉及的构成，声音合成装置包括：情感输入部202，接受情感种类的输入；特征性音色选择部203，选择情感的种类所对应的特征性音色的种类；特征性音色时间位置推定部804，其由特征性音色音韵频度决定部204、推定公式记录部820、推定公式选择部821、概率分布保持部822、判断阈值决定部823以及特征性音色音韵推定部622构成，且按照指定的频度决定音韵，该音韵是在合成的声音中以具有特征性音色的特殊声音应该生成的音韵；以及特殊声音单元数据库208，其与标准声音单元数据库207不同，是按照音色存储带有情感的声音中的特殊声音的单元。

据此，可以按照输入的情感的种类和强度，决定应该生成特征性音色的声音的频度，并按照决定的频度，根据音韵串、韵律信息或语言信息等，以节拍、音节或音素这样的音韵单位，来推定生成特征性音色的声音的时间位置，并生成再现丰富音质变化的合成声音，所述特征性音色的声音出现于带有情感的说话声音的一部分，所述丰富音质表现在情感、表现力、说话风格或人际关系等所表现的说话中。

并且，可以提供表现能力高的声音合成装置，其不是对韵律或音质进行变化，而是可以以音韵位置的精度正确地模拟人在说话中自然的、且普遍进行的行动，并可以在没有任何不和谐感的情况下，直观地捕捉情感或表现力的种类，所述人在说话中自然的、且普遍进行的行动是指通过特征性音质的发生来表现情感或表现力等。

而且，在本实施例中，声音合成装置包括了：单元选择部606、标准声音单元数据库207、特殊声音单元数据库208以及单元连接部209，且示出了根据波形重叠法来实现的声音合成方式，不过，声音合成装置的构成也可以如图12所示，与实施例1相同，即包括：选择参数单元的单元选择部706、标准声音参数单元数据库307、特殊声音变换规则记录部308、参数变形部309以及波形生成部310。

而且，在本实施例中，声音合成装置包括了：单元选择部606、标准声音单元数据库207、特殊声音单元数据库208以及单元连接部209，且示出了根据波形重叠法来实现的声音合成方式，不过，声音合成装置的构成也可以如图14所示，与实施例1相同，即包括：生成标准声音的参数串的合成参数生成部406、特殊声音变换规则记录部308、按照变换规则从标准声音参数中生成特殊声音，并实现所希望的韵律的声音的参数变形部309，以及波形生成部310。

而且，在本实施例中，声音合成装置包括了：单元选择部206、标准声音单元数据库207、特殊声音单元数据库208以及单元连接部209，且示出了根据波形重叠法来实现的声音合成方式，不过，声音合成装置的构成也可以如图16所示，与实施例1相同，即包括：生成标准声音的参数串的标准声音参数生成部507、生成特征性音色的声音的参数串的一个或多个特殊声音参数生成部508、对标准声音参数生成部507和特殊声音参数生成部508进行切换的开关509、以及从合成参数串中生成声音波形的波形生成部310。

而且，在本实施例中，概率分布保持部822保持表示概率分布的特征性音色音韵的发生频度和推定公式的值之间的关系，且判断阈值决定部823参考概率分布保持部822来决定阈值，不过，对于发生频度和推定公式的值的关系也可以以对应表的形式来保持。

(实施例3)

图25是本发明实施例3的声音合成装置的功能方框图。在图25中，对于与图4和图19相同的构成要素赋予相同的符号，在此省略说明。

如图25所示，实施例3所涉及的声音合成装置包括：情感输入部202、要素情感音色选择部901、语言处理部101、韵律生成部205、特征性音色时间位置推定部604、单元选择部606、以及单元连接部209。

情感输入部202是一处理部，输出情感种类。要素情感音色选择部901是另一处理部，决定表现输入的情感的声音中所包含的一种以上的特征性音色的种类，以及决定按照特征性音色而合成的声音中的生成频度。语言处理部101是另一处理部，输出音韵串和语言信息。韵律生成部205是另一处理部，生成韵律信息。特征性音色时间位置推定部604是另一处理部，获得音色指定信息、音韵串、语言信息以及韵律信息，并按照由要素情感音色选择部901生成的各个特征性音色的频度，以特殊声音的种类来决定生成合成声音中的特殊声音的音韵。

单元选择部606是另一处理部，对于生成指定的特征声音的音韵，进行开关切换，并从符合的特殊声音单元数据库208中选择声音单元，对于除此之外的音韵，则从标准声音单元数据库207选择单元。单元连接部209是另一处理部，生成连接单元的声音波形。

要素情感音色选择部901包括要素音色表902以及要素音色选择部903。

如图26所示，要素音色表902中记录有表现输入的情感的声音中所包含的一种以上的特征性音色以及该特征性音色的出现频度的组合。要素音色选择部903是另一处理部，按照由情感输入部202所获得的情感种类，参考要素音色表902，来决定声音中所包含的一种以上的特征性音色和该特征性音色的出现频度。

以下，利用图27对声音合成装置的工作进行说明。在图27中，对于与图9和图22相同的工作步骤赋予相同的符号，在此省略说明。

首先，情感控制信息被输入到情感输入部202，并抽出情感种类(S2001)。要素音色选择部903获得抽出的情感种类，参考要素音色表902，获得特殊声音和该特殊声音所合成的声音中生成的频度这一对数据，并输出(S10002)，所述特殊声音具有与情感的种类相对应的一种以上的特征性音色。

另一方面，语言处理部101对输入的文本进行词素分析和结构分析，并输出音韵串和语言信息(S2005)。韵律生成部205获得音韵串和语言信息并获得情感种类信息，并生成韵律信息(S2006)。

特征性音色时间位置推定部604选择指定的一种以上的特殊声音所分别对应的推定公式(S9001)，并按照指定的各个特殊声音的频度，来决定推定公式的值所对应的判断阈值(S9002)。特征性音色时间位置推定部604获得在S2005生成的音韵信息和在S2006生成的韵律信息，而且获得在S9001选择的推定公式和在S9002决定的阈值，并决定应该生成的合成声音中的特征性音韵的音韵，并标上特殊声音单元标记(S6004)。单元选择部606从韵律生成部205获得音韵串和韵律信息，并且获得音韵的信息，在适用于合成的音韵串后，将音韵串变换为单元单位，并决定使用特殊声音单元的单元单位(S6007)，所述音韵是以在S6004的特征性音色音韵推定部622所决定的特殊声音，生成合成音的音韵。

并且，单元选择部606按照在S6007决定的使用特殊声音单元的单元位置和不使用的单元位置，切换开关210，从而与标准声音单元数据库207和存储指定的种类的特殊声音单元的特殊声音单元数据库208中的某一个相连接，从而选择合成时必要的声音单元(S2008)。单元连接部209通过波形重叠方式，按照获得的韵律信息，将在S2008选择的单元变形并连接(S2009)，以及输出声音波形(S2010)。另外，虽然在S2008是通过波形重叠方式进行连接的，不过，也可以采用其它的方法来连接单元。

图28是示出了通过以上的处理，在合成“じゅつぷんほどかかります(大约要花十分钟)”这个声音时的特殊声音的位置的一个例子。即，在三个特征性音色互不交叉重叠的情况下，所决定的使用特殊声音单元的位置。

根据所涉及的构成，声音合成装置包括：情感输入部202，以接受情感种类的输入；要素情感音色选择部901，与情感的种类相对应，按照一种以上的特征性音色和按各个特征性音色预先设定的频度，生成一种以上的特征性音色和按各个特征性音色的频度；特征性音色时间位置推定部604；以及特殊声音单元数据库208，其与标准声音单元数据库207不同，按照各个音色存储带有情感的声音中的特殊声音的单元。

据此，可以按照输入的情感的种类，决定多种特征性音色的声音，并按照特殊声音的种类，决定应该生成声音的频度，并按照该频度，根据音韵串、韵律信息或语言信息等，以节拍、音节或音素这样的音韵单位，来推定生成特征性音色的声音的时间位置，并生成再现丰富音质变化的合成声音，所述多种特征性音色的声音出现于带有情感的说话声音的一部分，所述丰富音质表现在情感、表现力、说话风格或人际关系等所表现的话语中。

并且，可以提供表现能力高的声音合成装置，其不是对韵律或音质进行变化，而是可以以音韵位置的精度正确地模拟人在说话中自然的、且普遍进行的行动，并可以在没有任何不和谐感的情况下，直观地捕捉情感或表现力的种类，所述人在说话中自然的、且普遍进行的行动是指通过特征性音质的发音来表现情感或表现力等。

而且，在本实施例中，声音合成装置包括了：单元选择部606、标准声音单元数据库207、特殊声音单元数据库208以及单元连接部209，且示出了根据波形重叠法来实现的声音合成方式，不过，声音合成装置的构成也可以如图12所示，与实施例1及2相同，即包括：选择参数单元的单元选择部706、标准声音参数单元数据库307、特殊声音变换规则记录部308、参数变形部309以及波形生成部310。

而且，在本实施例中，声音合成装置包括了：单元选择部606、标准声音单元数据库207、特殊声音单元数据库208以及单元连接部209，且示出了根据波形重叠法来实现的声音合成方式，不过，声音合成装置的构成也可以如图14所示，与实施例1及2相同，即包括：生成标准声音的参数串的合成参数生成部406、特殊声音变换规则记录部308、按照变换规则从标准声音参数中生成特殊声音，并实现所希望的韵律的声音的参数变形部309，以及波形生成部310。

而且，在本实施例中，声音合成装置包括了：单元选择部206、标准声音单元数据库207、特殊声音单元数据库208以及单元连接部209，且示出了根据波形重叠法来实现的声音合成方式，不过，声音合成装置的构成也可以如图16所示，与实施例1及2相同，即包括：生成标准声音的参数串的标准声音参数生成部507、生成特征性音色的声音的参数串的一个或多个特殊声音参数生成部508、对标准声音参数生成部507和特殊声音参数生成部508进行切换的开关509、以及从合成参数串中生成声音波形的波形生成部310。

而且，在本实施例中，概率分布保持部822保持表示概率分布函数的特征性音色音韵的发生频度和推定公式的值之间的关系，且判断阈值决定部823参考概率分布保持部822来决定阈值，不过，对于发生频度和推定公式的值的关系也可以以对应表的形式来保持。

并且，在本实施例中，情感输入部202用于接受情感种类的输入，要素音色选择部903仅按照情感种类，来选择要素声音表902中按各个情感种类所记录的一个以上的特征性音色的种类及其频度，不过，也可以是，在要素音色表902中，按照情感种类和情感强度，记录特征性音色的种类及其频度的组合，或将按照情感种类的特征性音色的种类的组合与根据情感强度而各个特征性音色的频度的变化作为对应表或作为对应函数来记录，情感输入部202接受情感种类和情感强度，要素音色选择部903参考要素音色表902，按照情感种类和情感强度，来决定特征性音色的种类及其频度。

并且，在实施例1～3中，虽然在S2003、S6003或S9001之前，由语言处理部101对文本进行语言处理，并进行了生成音韵串和语言信息的处理(S2005)和由韵律生成部205从音韵串、语言信息以及情感种类(或情感种类和强度)中生成韵律信息的处理(S2006)，不过，只要是在决定在音韵串上生成特殊声音的位置的处理(S2007、S3007、S3008、S5008、S6004)之前执行即可。

并且，在实施例1～3中，虽然是语言处理部101获得自然语言的输入文本，并在S2005生成音韵串以及语言信息，不过，也可以像图29、图30以及图31那样，韵律生成部获得语言处理完毕的文本。语言处理完毕的文本至少包括表示音韵串和重音的位置或暂停的位置、重音句的断开处等的韵律记号。在实施例1～3，由于韵律生成部205以及特征性音色时间位置推定部604及804利用了语言信息，因此，语言处理完毕的文本还包括词性或呼应关系等语言信息。语言处理完毕的文本例如是图32所示的形式。图32(a)所示的语言处理完毕的文本是在向车载信息终端提供信息服务时，从服务器向各个终端送信时所采用的方式。音韵串以片假名来表示，重音位置以“’”记号来表示，重音句的断开处以“/”记号来表示，句子结尾的较长的暂停以“.”来表示。图32(b)除示出了在图32(a)所示的语言处理完毕的文本以外，还按照每个单词示出了作为语言信息的词性信息。当然，语言信息还可以包含除此以外的信息。韵律生成部205也可以在获得图32(a)所示的语言处理完毕的文本的情况下，韵律生成部205在S2006根据音韵串和韵律记号，来生成如基本频率、功率、音韵时间长度、暂停时间长度等韵律信息，且该韵律信息是用于将指定的重音或重音句的断开处作为声音来实现的韵律信息。韵律生成部205在获得了图32(b)所示的包含语言信息的语言处理完毕的文本的情况下，通过与实施例1～3的S2006相同的工作来生成韵律信息。实施例1～3中，特征性音色时间位置推定部604即使韵律生成部205获得了如图32(a)所示的语言处理完毕的文本的情况下，且获得了图32(b)所示的语言处理完毕的文本的情况下，也与在S6004的工作同样，即根据音韵串和韵律生成部205所生成的韵律信息，来决定应该以特征性音韵来发生的音韵。像这样可以不获得没有经过语言处理的自然语言所描述的文本，而是通过获得语言处理完毕的文本来合成声音。并且，对于语言处理完毕的文本，在图32中所示的形式是以一行来列举一句的音韵，除此之外，例如还可以以音韵、单词、句节等为单位，将音韵、韵律记号、语言信息以表的形式来表示。

而且，在实施例1～3中，虽然在S2001的情感输入部202获得情感种类或情感种类和情感强度，语言处理部101获得作为自然语言的输入文本，不过，也可以是如图33及图34所示，标记语言分析部1001获得赋予了像VoiceXML这样的表示情感种类或情感种类和情感强度的标记的文本，并对标记和文本部分进行分离，分析标记的内容，并输出情感种类或情感种类和情感强度。附有标记的文本例如是图35(a)所示的形式。图35中的符号“<>”中所括起来的部分为记号， “voice”表示对声音进行指定的指令，“emotion＝anger[5]”表示对作为声音的情感即愤怒进行指定，且示出了指定的愤怒的强度为5。“/voice”表示在“voice”行开始的指令可影响到的位置。例如在实施例1或实施例2中，也可以是，标记语言分析部1001获得图35(a)的附有标记的文本，对标记部分和描述自然语言的文本部分进行分离，对标记的内容进行分析，在将情感的种类和强度输出到特征性音色选择部203以及韵律生成部205的同时，向语言处理部101输出应该以声音来表现该情感的文本部分。并且，在实施例3也可以是，标记语言分析部1001获得图35(a)的附有标记的文本，对标记部分和描述自然语言的文本部分进行分离，对标记的内容进行分析，在向要素音色选择部903输出情感的种类和强度的同时，向语言处理部101输出音该以声音来表现该情感的文本部分。

并且，在实施例1～3中，虽然在S2001情感输入部202获得情感种类或情感种类和情感强度，语言处理部101获得作为自然语言的输入文本，不过，也可以像图36及图37那样，标记语言分析部101获得附有标记的文本，并对标记和文本部分进行分离，分析标记的内容，并输出情感种类或情感种类和情感强度，所述标记表示情感种类或情感种类和情感强度，且所述标记被赋予在至少含有如图35所示的音韵串和韵律记号的语言处理完毕的文本上。附有标记的语言处理完毕的文本例如可以是如图35(b)所示的形式。例如在实施例1或实施例2可以是，标记语言分析部1001获得图35(b)的附有标记的语言处理完毕的文本，并对支持表现的记号部分和音韵串和韵律记号的部分进行分离，分析标记的内容，在将情感的种类和强度输出到特征性音色选择部203以及韵律生成部205的同时，将应该以声音来表现情感的音韵串和韵律记号部分输出到韵律生成部205，所述情感是情感的种类和强度合起来的情感。并且，在实施例3也可以是，标记语言分析部101获得图35(b)的附有标记的语言处理完毕的文本，对标记部分和音韵串和韵律记号部分进行分离，解析标记的内容，在将情感的种类和强度输出到要素音色选择部903的同时，将应该以声音来表现该情感的音韵串和韵律记号的部分输出到韵律生成部205。

并且，在实施例1～3，在情感输入部202获得的是情感种类或情感种类和情感强度，不过，作为用于决定说话状态的信息，也可以获得除上述以外的发音器官的紧张或松驰、表现力、说话风格或说话方式等指定。例如，若是发音器官的紧张，则可以获得像“咽喉周边的紧张度3”这样的咽喉或舌头等发音器官和用力的程度的信息。再者，若是说话风格，则可以获得有关说话场景的信息，这些信息例如是，像“有礼貌5”或“死板2”这样的说话态度的种类及其程度，或者像“亲密关系”或“待客关系”这样的说话人之间的关系。

并且，在实施例1～3，虽然是根据推定公式来求以特征性音色(特殊声音)说话的节拍的，不过，在预先知道有容易超过推定公式阈值的节拍时，可以在该节拍中时常以特征性音色来说话的状态下，生成合成声音。例如，特征性音色为“用力”的情况下，在以下(1)到(4)所示的节拍，推定公式的值容易超过阈值。

(1)子音为/b/(双唇音且塞音)，且是重音句中从开头的第三个节拍

(2)子音为/m/(双唇音且鼻音)，且是重音句中从开头的第三个节拍

(3)子音为/n/(龈音且鼻音)，且是重音句中最开头的节拍

(4)子音为/d/(龈音且塞音)，且是重音句中最开头的节拍

并且，在特征性音色为“嘶哑”的情况下，以以下(5)到(8)所示的节拍，推定公式容易超过阈值。

(5)子音为/h/(声门音且擦音)，且是重音句的最开头的节拍或重音句中从开头的第三个节拍

(6)子音为/t/(龈音且塞音)，且是重音句中从开头的第四个节拍

(7)子音为/k/(软颚音且塞音)，且是重音句中从开头的第五个节拍

(8)子音为/s/(齿音且塞音)，且是重音句中从开头第六个节拍

本发明所涉及的声音合成装置具有使声音的表现变得丰富的构成，使声音的表现变得丰富是根据发音器官的紧张或松驰、情感、表现力、或因说话风格而使声音的某些部分出现的特定的说话状态，并通过生成特征性音色的声音来实现的，本发明所涉及的声音合成装置可作为汽车导航系统、视频、音频等电子机器、或机器人等的声音或对话界面等来使用。并且，还可以应用于呼叫中心或电话局的自动电话对应系统等用途上。

Claims

1.一种声音合成装置，其特征在于，包括：

说话状态获得单元，获得被声音合成的声音波形的说话状态；

韵律生成单元，生成韵律，该韵律是以获得的所述说话状态，说出经过语言处理的文本时的韵律；

特征性音色选择单元，根据所述说话状态来选择观察到的特征性音色，且所述特征性音色是以获得的所述说话状态，说出所述文本时观察到的；

记录单元，记录规则，该规则用于根据音韵和韵律判断所述特征性音色的发生难易度；

频度决定单元，根据所述特征性音色，决定以所述特征性音色说话的频度；

说话位置决定单元，根据所述文本的音韵串、所述特征性音色、所述韵律、所述规则，以及所述频度，以构成所述音韵串的各个音韵为单位，判断是否以所述特征性音色来说话，并决定音韵，该音韵位于以所述特征性音色来说话的说话位置；以及

波形合成单元，根据所述音韵串、所述韵律以及所述说话位置来生成声音波形，应用该声音波形以所述说话状态说出所述文本，并且在所述说话位置决定单元所决定的说话位置以特征性音色说出上述文本。

2.如权利要求1所述的声音合成装置，其特征在于，所述频度决定单元将节拍、音节、音素或声音合成单位作为单位，来决定所述频度。

3.一种声音合成装置，其特征在于，

该声音合成装置包括：

特征性音色选择单元，根据所述说话状态来选择观察到的特征性音色，且所述特征性音色是以获得的所述说话状态，说出所述文本时观察到的；以及

所述特征性音色选择单元包括：

要素音色记录部，将说话状态与下述组合对应起来记录，所述组合是多个特征性音色及以该特征性音色说话的频度的组合；以及

选择部，从所述要素音色记录部中选择下述组合，该组合是与所获得的所述说话状态相对应的所述多个特征性音色及以该特征性音色说话的频度的组合；

所述声音合成装置还包括：

说话位置决定单元，根据所述文本的音韵串、所述多个特征性音色及以该特征性音色说话的频度的组合、所述韵律、以及所述规则，以构成所述音韵串的各个音韵为单位，判断是否以所述多个特征性音色中的某一个来说话，并决定音韵，该音韵位于以各个特征性音色来说话的说话位置；以及

波形合成单元，根据所述音韵串、所述韵律以及所述说话位置来生成声音波形，应用该声音波形以所述说话状态说出所述文本，并且在所述说话位置决定单元所决定的说话位置以特征性音色说出所述文本。

4.如权利要求3所述的声音合成装置，其特征在于，

所述说话状态获得单元还获得所述说话状态的强度；

所述要素音色记录部将以下的两个组合对应起来记录，所述两个组合是指：所述说话状态及该说话状态的强度的组合，以及所述多个特征性音色及以该特征性音色说话的频度的组合；

所述选择部从所述要素音色记录部中选择一个组合，该组合是所述多个特征性音色及以该特征性音色说话的频度的组合，且该组合与获得的所述说话状态及该说话状态的强度的组合相对应。

5.一种声音合成装置，其特征在于，

该声音合成装置包括：

所述特征性音色选择单元包括：

要素音色记录部，将说话状态和多个特征性音色对应起来记录；以及

选择部，从所述要素音色记录部选择所述多个特征性音色，所述多个特征性音色与获得的所述说话状态相对应；

所述声音合成装置还包括：

说话位置决定单元，根据所述文本的音韵串、所述多个特征性音色、所述韵律、以及所述规则，以构成所述音韵串的各个音韵为单位，判断是否以所述多个特征性音色中的某一个来说话，在不使所述多个特征性音色的说话位置重叠的状态下来决定音韵，该音韵位于以各个特征性音色来说话的说话位置；以及

6.一种声音合成装置，其特征在于，包括：

特征性音色选择单元，对在以获得的所述说话状态说出作为声音合成的对象的文本时所观测到的特征性音色，根据上述说话状态进行选择；

存储单元，存储表示以特征性音色“用力”说话的音韵位置的规则、以及表示以特征性音色“嘶哑”说话的音韵位置的规则，所述的表示以特征性音色“用力”说话的音韵位置的规则包括：(1)子音为/b/，其为双唇音且塞音，且是重音句中从开头的第三个节拍，(2)子音为/m/，其为双唇音且鼻音，且是重音句中从开头的第三个节拍，3)子音为/n/，其为龈音且鼻音，且是重音句中最开头的节拍，(4)子音为/d/，其为龈音且塞音，且是重音句中最开头的节拍，所述的表示以特征性音色“嘶哑”说话的音韵位置的规则包括：(5)子音为/h/，其为声门音且擦音，且是重音句的最开头的节拍或重音句中从开头的第三个节拍，(6)子音为/t/，其为龈音且塞音，且是重音句中从开头的第四个节拍，(7)子音为/k/，其为软颚音且塞音，且是重音句中从开头的第五个节拍，(8)子音为/s/，其为齿音且擦音，且是重音句中从开头第六个节拍；

说话位置决定单元，在上述特征性音色选择单元所选择的特征性音色为“用力”时，在上述文本的音韵串中，将满足存储在上述存储单元中的上述(1)-(4)中某一规则的音韵的位置决定为以“用力”说出的音韵位置，在上述特征性音色选择单元所选择的特征性音色为“嘶哑”时，在上述文本的音韵串中，将满足存储在上述存储单元中的上述(5)-(8)中某一规则的音韵的位置决定为以“嘶哑”说出的音韵位置；以及

波形合成单元，生成声音波形，该声音波形是以所述特征性音色说出所述音韵位置的声音波形，所述音韵位置是由所述说话位置决定单元所决定的。