CN1331112C

CN1331112C - 音高模型生成装置和音高模型生成方法

Info

Publication number: CN1331112C
Application number: CNB2005100514400A
Authority: CN
Inventors: 川原毅彦
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2004-03-05
Filing date: 2005-03-04
Publication date: 2007-08-08
Anticipated expiration: 2025-03-04
Also published as: JP4428093B2; CN1664922A; JP2005250264A; TWI271702B; TW200603073A

Abstract

本发明提供一种用于实现自然的音高变化的音高模型生成装置等。在声调·音高变化模型表(233a)中，登录有用于确定各声调(第一声～第四声)的声调编号、用于表示各声调的标准的音高变化的标准音高变化模型、以及使对应的标准音高变化模型变形后的变形音高变化模型。声调·音高变化模型选择部(232a)不仅考虑该音节的声调，还考虑前后音节的声调，来选择音高变化模型。音高模型生成部(236)根据所选择的该音高变化模型和从文本解析部(220)提供的音高指定信息，进行音高模型的生成。

Description

音高模型生成装置和音高模型生成方法

技术领域

本发明涉及一种生成合成语音的音高模型的技术。

背景技术

在与汉语对应的语音合成装置中，具有这样的功能，即按照所输入的拼音(用罗马字标记汉语的读音)来输出汉语的合成语音。

其中，汉语的一个汉字对应一个音节，一个音节由被称为「声母」的先头辅音(处于音节先头的辅音)和被称为「韵母」的、除了「声母」之外的部分(元音、二重元音、鼻音化元音等)构成。

为了得到汉语的合成语音，需要用罗马字输入这样的声母和韵母(拼音输入)，但在汉语中，具有相同拼音的汉字可能存在多个。例如，对于某一音节「qi」，对应的汉字有「期」、「奇」、「起」、……等，所以仅输入拼音，可能无法直接得到想要的变换输出候补汉字。

为了解决这个问题，带有四声的拼音输入方法(例如参照专利文献1)被采用，在这种方法中，与拼音同时输入表示音节抑扬(音高随时间的变化)、被称为「四声」的声调(声调信息)。该声调由基本上维持原来音高(声音的高低)的第一声、使音高上扬的第二声、使音高先下降再上扬的第三声、以及使音高下降的第四声构成(参照图16)。在输入声调信息时，在对应的拼音之后，附加用数字1～4表示的第一声～第四声的声调。举一个例子说明，在想要得到「期」(＝第一声)、「奇」(＝第二声)、「起」(＝第三声)、「器」(＝第四声)作为变换输出候补汉字的情况下，分别输入「qi1」、「qi2」、「qi3」、「qi4」。这样，通过与拼音同时输入表示声调种f类的声调信息，可以专心地确定与拼音对应的汉字和意思。

专利文献1：特开昭61-27597号公报

发明内容

根据上述方法，可以得到与所输入的声调对应的每个音节的音高变化，但随着该音节的声调与前后音节的声调的关系(例如该音节的声调是「第三声」，后续音节的声调是「第二声」等)的不同，会出现上述音高变化不自然等问题。

此外，用户也可能有这样的要求，即不仅能通过指定声调种类来使合成语音的音高变化，还能够自由地使合成语音的音高变化。

本发明就是鉴于上述问题而提出的，其第一目的在于，提供一种用于实现自然的音高变化的音高模型生成技术，其第二目的在于，提供一种用于实现按照用户意图的音高变化的音高模型生成技术。

为了解决上述问题，本发明的音高模型生成装置，根据所输入的文本信息，生成音高模型，该音高模型表示与该文本信息对应的合成语音的音高随时间的变化，其特征在于，具有：获取单元，针对每个音节，从上述文本信息中获取表示作为基准的音高的音高指定信息以及表示声调种类的声调信息；存储单元，对应关联地存储声调编号、标准音高变化模型和使该标准音高变化模型变形后的变形音高变化模型；选择单元，从所获取的音节的声调信息来确定上述声调编号，并且根据该音节前面的音节的声调信息或后续音节的声调信息，来选择与上述声调编号对应的上述标准音高变化模型或上述变形音高变化模型中的一个；以及生成单元，根据所选择的一个音高变化模型和所获取的音节的音高指定信息，生成该音节的音高模型。

根据上述结构，从所取得的音节的声调信息(例如「第三声」等)来确定声调编号，并且根据该音节前面的音节的声调信息或该音节后续的音节的声调信息，来选择与该声调编号对应的标准音高变化模型(例如「第三声」的标准音高变化模型)或使该标准音高变化模型变形后的变形音高变化模型中的一个(参照图8和图9)。这样，由于选择了不仅考虑该音节的声调、还考虑了前后音节的声调的音高变化模型，所以与仅考虑该音节的声调来选择音高变化模型的情况相比，可以获得更自然的音高变化。

此外，本发明的音高模型生成装置，根据所输入的文本信息，生成音高模型，该音高模型表示与该文本信息对应的合成语音的音高随时间的变化，其特征在于，具有：获取单元，针对每个音节，从上述文本信息中获取表示作为基准的音高的音高指定信息以及表示声调种类的声调信息；存储单元，对应关联地存储声调编号和标准音高变化模型；生成单元，从所获取的音节的声调信息来确定上述声调编号，抽取出与该声调编号对应的标准音高变化模型，然后根据该音节前面的音节的声调信息或后续音节的声调信息，使抽取出的标准音高变化模型变形，由此生成变形音高变化模型；以及生成单元，根据所生成的上述变形音高变化模型和所获取的音节的音高指定信息，生成该音节的音高模型。

此外，本发明的音高模型生成装置，根据所输入的文本信息，生成音高模型，该音高模型表示与该文本信息对应的合成语音的音高随时间的变化，其特征在于，具有：获取单元，针对每个音节，从上述文本信息中获取表示作为基准的音高的音高指定信息；检测单元，检测在上述各音节中是否包含重音信息；存储单元，对应关联地存储重音记号和音高变化模型；选择单元，对于检测出上述重音信息的音节，从该重音信息来确定上述重音记号，然后选择与该重音记号对应的音高变化模型；以及生成单元，根据所选择的上述音高变化模型和检测出上述重音信息的音节的上述音高指定信息，生成该音节的音高模型。

根据上述结构，对于检测出重音信息的音节，从该重音信息来确定重音记号，然后选择与所确定的重音记号对应的音高变化模型(参照图11和图12)。这样，由于选择了反映了重音信息内容的音高变化模型等，所以能够获得无法由模型化的音调表现的音高变化或用户所希望的音高变化。

此外，本发明的音高模型生成装置，根据所输入的文本信息，生成音高模型，该音高模型表示与该文本信息对应的合成语音的音高随时间的变化，其特征在于，具有：第一获取单元，针对每个音节，从上述文本信息中获取表示作为基准的音高的音高指定信息；检测单元，检测在上述各音节中是否包含重音信息；第二获取单元，对于没有检测出上述重音信息的音节，从上述文本信息中获取表示声调种类的声调信息；第一存储单元，对应关联地存储重音记号和音高变化模型；第二存储单元，对应关联地存储声调编号和音高变化模型；第一选择单元，对于检测出上述重音信息的音节，从该重音信息来确定上述重音记号，然后选择与该重音记号对应的音高变化模型；第二选择单元，对于获取了上述声调信息的音节，从所获取的音节的声调信息来确定上述声调编号，然后选择与该声调编号对应的音高变化模型；第一生成单元，根据由上述第一选择单元所选择的音高变化模型和检测出上述重音信息的音节的上述音高指定信息，生成该音节的音高模型；以及第二生成单元，根据由上述第二选择单元所选择的音高变化模型和获取了上述声调信息的音节的上述音高指定信息，生成该音节的音高模型。

发明的效果

如上所述，根据本发明，可以实现自然的音高变化或用户想要的音高变化。

附图说明

图1是表示本实施方式中语音合成装置的功能性结构的框图。

图2是例示出该实施方式中利用带有四声的拼音输入方法输入的文本信息的图。

图3是例示出该实施方式中利用带有四声的拼音输入方法输入的文本信息的图。

图4是例示出该实施方式中附加重音信息前后的文本信息的图。

图5是例示出该实施方式中声调·音高变化模型表的登录内容的图。

图6是表示该实施方式的音高变化模型结构的图。

图7是例示出该实施方式中音高变化模型的图。

图8是例示出该实施方式中第三声的音高变化模型的图。

图9是例示出该实施方式中第二声的音高变化模型的图。

图10是例示出该实施方式中重音·音高变化模型表的图。

图11是例示出该实施方式中重音记号的音高变化模型的图。

图12是例示出该实施方式中重音记号的音高变化模型的图。

图13是例示出该实施方式中重音记号列的音高变化模型的图。

图14是例示出该实施方式中音高模型的图。

图15是例示出变形例2中声调·音高变化模型生成部结构的图。

图16是例示出汉语的各声调的音高变化模型的图。

具体实施方式

以下参照附图，对本发明的实施方式进行说明。

A.本实施方式

图1是表示本实施方式中与汉语对应的语音合成装置100的功能性结构的图。在本实施方式中，假定语音合成装置100安装在移动电话或PHS(Personal Handyphone System：注册商标)、PDA(PersonalDigital Assistance)等对硬件资源有较大限制的移动终端中的情况，但本发明不限于此，可以应用在各种电子设备中。

输入部210将从未图示的操作部等输入的文本信息提供给文本解析部220。图2和图3是例示出利用带有四声的拼音输入方法输入的文本信息的图。

文本信息被分为第一类文本信息(参照图2)和第二类文本信息(参照图3)两大类，在各文本信息中，包含有用于指定合成语音的音高(例如200(Hz)等)的音高指定信息(图示省略)等。

第一类文本信息是不包含后述的重音记号的文本信息，它由在拼音中附加了声调信息的文本信息(以下统称为「带有声调的拼音信息」，参照图2的A)，以及在上述文本信息中进一步附加了长音记号的文本信息(以下统称为「带有声调·长音的拼音信息」，参照图2的B)等构成。

例如，图2的A所示的文本信息「xiang1gang3(＝香港)」是由带有声调的拼音信息「xiang1(＝香)」和「gang3(＝港)」构成的2音节文本信息，图2的B所示的文本信息「chao1」(＝超)--ren2(＝仁)是由带有声调·长音的拼音信息「chao1(＝超)--」和带有声调的拼音信息「ren2(＝仁)」构成的2音节文本信息。

长音记号「-」表示使带有该长音记号的音节(图2的B中的「chao1」)拉长规定长度，连续的长音记号数量越多，该音节的发音时间越长。

另一方面，第二类文本信息是包含重音信息的文本信息。重音信息是用于使对应的音节产生抑扬的信息，它由「′」、「_」等重音记号，以及附加在该重音记号之后、表示抑扬强弱的「3 」、「2」等重音强度构成(参照图3)。

例如，图3的A所示的文本信息「′2ye3」，是在带有声调的拼音信息「ye3(＝也)」中附加了重音信息「′2」的1音节文本信息，图3的B所示的文本信息「′3a1_2--′4-」是在带有声调·长音的拼音信息「a1(＝阿)---」中附加了「′3 」、「_2」、「′4」的文本信息(参照图4)。关于重音信息，将在后面详细说明，这里省略。

文本解析部220对从输入部210提供的文本信息进行解析，然后将解析结果分别提供给音高生成部230、语音信号生成部240。以下详细说明，文本解析部(获取单元、第一获取单元)220在从输入部210接收到文本信息之后，针对每个音节，对该文本信息进行分割、解析，由此取得以下信息：音高指定信息，用于表示每个音节的作为基准的音高(例如200(Hz)等)；音素信息，用于表示音素；以及韵律信息，用于表示声音的大小和声音的长度。然后，文本解析部220将分割后的每个音节的文本信息提供给文本信息种类判断部231，同时将所取得的每个音节的音高指定信息提供给音高模型生成部236，并且将所取得的每个音节的音素信息和韵律信息提供给语音信号生成部240。

文本信息种类判断部(检测单元)231判断从文本解析部220提供的每个音素的文本信息是第一类文本信息、还是第二类文本信息。在该文本信息中不包含重音信息的情况下，文本信息种类判断部231判断其是第一类文本信息，而在该文本信息中包含有重音信息的情况下，判断其是第二类文本信息。文本信息种类判断部231根据上述判断结果，将第一类文本信息提供给声调信息取得部231a，而将第二类文本信息提供给重音信息取得部231b。这样，在本实施方式中，如果在一个音节中包含有重音信息，则无论该音节中是否包含有声调信息，都使重音信息优先，执行基于该重音信息的处理，但是，是使包含在音节中的重音信息优先、还是使声调信息优先，可以根据语音合成装置100的设计等而进行适当变更。

声调信息取得部(获取单元、第二获取单元)231a从第一类文本信息中取得每个音节的声调信息，然后提供给声调·音高变化模型生成部234a。

另一方面，重音信息取得部231b从第二类文本信息中取得每个音节的重音信息，然后提供给重音·音高变化模型生成部234b。

(声调·音高变化模型生成部234a)

声调·音高变化模型生成部234a由声调·音高变化模型选择部(选择单元)232a和声调·音高变化模型表(存储单元)233a构成。

图5是例示出声调·音高变化模型表233a的登录内容的图。在声调·音高变化模型表(存储单元、第二存储单元)233a中，分别对应关联地登录有用于确定各声调(第一声～第四声)的声调编号和音高变化模型。音高变化模型是表示音高随时间变化的模型，它由用于表示各声调的标准音高变化的标准音高变化模型(参照图8和图9所示的实线部分)以及使对应的标准音高变化模型变形后的变形音高变化模型(参照图8和图9的虚线部分)。

该变形音高变化模型是根据前面或后续音节的声调信息与该音节的声调信息之间的关系而生成的音高变化模型，图8所示的变形音高变化模型表示在后面连接有具有第三声以外的声调的音节时，第三声的音高变化，图9所示的变形音高变化模型表示在前面连接有具有第一声的声调的音节时，第二声的音高变化(后面详细说明)。在以下的说明中，将根据前面音节的声调信息与该音节的声调信息之间的关系而生成的音高变化模型称为前面型变形音高变化模型，将根据后续音节的声调信息与该音节的声调信息之间的关系而生成的音高变化模型称为后续型变形音高变化模型。

图6是例示出登录在声调·音高变化模型表233a中的各音高变化模型结构的图。

音高变化模型由对音高变化的时间进行n次分割情况下的各定时t1～tn、以及与这些定时对应的各音高变化量p1～pn构成。在图6中，例示出了对音高变化的时间进行101(＝n)等分，此时的各定时t1＝0、…、t31＝30、…t101＝100以及与这些定时对应的各音高变化量p1＝10、…、p31＝-10、…、p101＝30。

图7是例示出对图6所示的各定时的各音高变化量进行直线插补等而得到的音高变化模型的图。从图6和图7可以看出，在本实施方式中，由于是对音高变化的时间进行等分来表现上述定时，所以无论音高变化的时间是否伸缩，都能够进行同样的音高变化。另外，在上述例子中，例示出对音高变化的时间进行等分的情况，但不限于等分的情况，只要能够通过上述直线插补等而得到音高变化模型，可以采用任何一种分割方式。此外，音高变化模型可以是固定的，也可以由用户自由定义·变更。

图8是例示出第三声音高变化模型的图，图9是例示出第二声音高变化模型的图。

第三声的标准音高变化模型表示音高先下降再上扬这样的变化(参照图8所示的实线部分)，而第三声的后续型变形音高变化模型表示音高保持下降状态这样的变化(参照图8所示的虚线部分)。通过设计该第三声的后续型变形音高变化模型，即使在第三声音节之后连接有具有其他声调的音节的情况，也能够得到自然的音高变化。

声调·音高变化模型选择部(选择单元、第二选择单元)232a在从声调信息取得部231a接收到该音节的声调信息之后，根据该声调信息来确定声调编号。声调·音高变化模型选择部232a如果判断所确定的声调编号是「第三声」，则参照后续音节的声调信息，判断后续音节是否是具有「第三声」声调的音节。声调·音高变化模型选择部232a根据该判断结果，来选择第三声的标准音高变化模型或第三声的后续型变形音高变化模型中的一个。

例如，对于音节「wu3(＝五)」和「xiang1gang3(＝香港)」中的音节「gang3(＝港)」，由声调·音高变化模型选择部232a选择第三声的标准音高变化模型，而对于「lu3 xing2(＝旅行)」中的音节「lu3(＝旅)」和「bei3 jing1(＝北京)」中的音节「bei3(＝北)」，由声调·音高变化模型选择部232a选择第三声的后续型变形音高变化模型。

另一方面，如图9所示，第二声的标准音高变化模型是表示从音高低的位置PSO开始上扬这样的变化的模型(参照图9所示的实线部分)，与此相对，第二声的前面型变形音高变化模型是表示音高从比位置PS0高的位置PS1开始上扬这样的变化的模型(参照图9所示的虚线部分)。通过设计该第二声的前面型变形音高变化模型，即使在前面是高音即具有第一声声调的音节的情况下，通过从比通常(即前面不是具有第一声声调的音节的情况)高的位置开始变化，从而能够得到自然的音高变化。

另外，可以不是对每个声调设计前面型变形音高变化模型或后续型变形音高变化模型中的一种(参照图8和图9)，而是对每个声调都设计前面型变形音高变化模型和后续型变形音高变化模型中的两者。此外，参照声调信息的音节不限于上述前1个或后1个音节，也可以是前2个或后6个音节等。此外，也可以参照适当组合上述音节后的多个音节的各声调信息。

声调·音高变化模型选择部(选择单元、第二选择单元)232a在从声调信息取得部231a接收到该音节的声调信息之后，根据该声调信息来确定声调编号。如果声调·音高变化模型选择部232a判断所确定的声调编号是「第二声」，则参照该音节前面的音节的声调信息，判断前面的音节是否是具有「第一声」声调的音节。声调·音高变化模型选择部232a根据该判断结果，选择第二声的标准音高变化模型或第二声的前面型变形音高变化模型中的一种。

例如，对于「lu3xing2(＝旅行)」中的音节「xing2(＝行)」和「nei4 rong2(＝内容)」中的音节「 rong2(＝容)」，由声调·音高变化模型选择部232a选择第二声的标准音高变化模型，而对于「an1 quan2(＝安全)」中的音节「quan2(＝全)」和「zhong1 wen2(＝中文)」中的音节「wen2(＝文)」，由声调·音高变化模型选择部232a选择第二声的前面型变形音高变化模型。

另外，对于该音节的声调是「第一声」的情况和是「第四声」的情况下的动作，由于可以与上述大致同样地说明，这里省略其说明。

声调·音高变化模型选择部232a在从声调·音高变化模型表233a中选择适合于声调信息的音高变化模型之后，将其提供给音高模型生成部236。

(重音·音高变化模型生成部234b)

重音·音高变化模型生成部234b由重音·音高变化模型选择部232b和重音·音高变化模型表233b构成。

图10是例示出重音·音高变化模型表233b的登录内容的图。

在重音·音高变化模型表(存储单元、第一存储单元)233b中，分别对应关联地登录有重音记号和音高变化模型。图11是例示出重音记号「′」的音高变化模型的图，图12是例示出重音记号「_」的音高变化模型的图。

如图11、图12所示，由重音记号「′」确定的音高变化模型是表示音高逐渐上扬这样的变化的模型，与此相对，重音记号「_」的音高变化模型是表示音高逐渐下降这样的变化的模型。另外，对于这些音高变化模型，可以作为例如函数信息(例如，如果是图11等所示的直线，则是表示斜率或截距等的信息)等而预先登录在重音·音高变化模型表233b中。当然，音高变化模型不限于直线模型。

重音·音高变化模型选择部(选择单元、第一选择单元)232b在从重音信息取得部231b接收到重音信息之后，根据该重音信息来确定登录在重音·音高变化模型表233b中的重音记号，然后选择与该重音记号对应的音高变化模型。然后，重音·音高变化模型选择部232b按照重音信息所表示的重音强度，变更音高变化模型所表示的音高变化量(如果是图11和图12所示的音高变化模型，则是直线的斜率)，进而与音高变化的时间相应，变更定时(参照以下详细说明)。

图13是例示出在被输入「′3a1_2--′4-」这样的1音节文本信息(参照图3的B等)时的音高变化模型的图。另外，在图13中，为了说明方便，例示出了音高变化的时间为100时的音高变化模型。

如图13所示，音高变化的时间被「a1」、「-」、「-」、「-」4等分，根据附加给「a1」的重音信息「′3」，得到音高变化ch1，根据附加给随后的第一个和第三个长音记号「-」的重音信息「_2」和「′4」，分别得到音高变化ch2、ch4。但是，由于没有给第二个长音记号「-」附加重音信息，所以得到音高保持一定值不变的音高变化ch3。

重音·音高变化模型选择部232b在按照这样的方式从重音·音高变化模型表233b中选择·变更适合于重音信息的音高变化模型之后，将其提供给音高模型生成部236。

音高模型生成部(生成单元、第一生成单元、第二生成单元)236根据从声调·音高变化模型生成部234a或从重音·音高变化模型生成部234b输出的音高变化模型，以及从文本解析部220提供的、抽取出音高变化模型后的音节的音高指定信息，通过对作为基准的指定音高施加音高变化模型，由此生成例如图14所示的音高模型。

语音信号生成部240根据从音高模型生成部236提供的音高模型以及从文本解析部220提供的音素信息和韵律信息，生成合成语音信号。其结果是，通过扬声器(图示省略)等，向外部输出基于上述生成的音高模型的合成语音。

如上所述，根据本实施方式的语音合成装置，选择不仅考虑了该音节的声调、还考虑了前后音节的声调的音高变化模型。由此，与仅考虑该音节的声调而选择音高变化模型的情况相比，可以获得表现出更自然的音高变化的合成语音。

此外，在所输入的文本信息中包含有重音信息的情况下，生成该重音信息所表示的重音记号、反映了重音强度的音高变化模型。由此，可以获得无法由被模型化的声调表现的音高变化、或用户所希望的音高变化的合成语音。

B.变形例

在上述本实施方式中，对各音节的声调被分类为4种具有特征性音高变化的「四声」的情况进行了说明，但在汉语(普通话)音节的声调中，还存在被称为「轻声」的声调，该「轻声」声调不具有确定的音高变化，并且发音轻。对于这样的轻声，例如可以不附加声调信息，而仅由拼音标记(「xie4xie(＝谢谢)」等)，对于上述轻声，保持前面音节的音高变化模型不变。另外，在本实施方式中，假定了汉语的情况，但也可以应用于泰语或越南语等具有声调的所有语言。此外，在上述本实施方式中，对通过拼音输入文本信息的情况进行了说明，但也可以通过汉字来输入文本信息。在该情况下，对于声调，可以与本实施方式同样地使用声调信息等来输入，或者也可以预先准备使各汉字和声调对应关联的汉字·声调表等，通过参照该汉字·声调表，来确定所输入的汉字的声调。

(变形例2)

图15是表示变形例2中声调·音高变化模型生成部234a′结构的图。声调·音高变化模型生成部234a′由变形音高变化模型生成部(生成单元)232a′和声调·音高变化模型表(存储单元)233a′构成。

在声调·音高变化模型表233a′中，对应关联地登录有用于确定各声调(第一声～第四声)的声调编号和表示各声调的标准音高变化的标准音高变化模型，它与图5所示的声调·音高变化模型表233a的不同点在于，没有对应关联地登录有变形音高变化模型。

另一方面，变形音高变化模型生成部(生成单元)232a′使从声调·音高变化模型表233a′抽取出的标准音高变化模型变形，由此生成变形音高变化模型(参照图8和图9的虚线部分)。具体地讲，变形音高变化模型生成部232a′首先根据从声调信息取得部231a提供的声调信息，来确定声调编号。然后，变形音高变化模型生成部232a′从声调·音高变化模型表233a′中抽取出与所确定的声调编号对应的标准音高变化模型。

变形音高变化模型生成部232a′在抽取出标准音高变化模型之后，参照该音节前面的音节的声调信息(或后续音节的声调信息)，来决定是否生成变形音高变化模型。另外，在进行上述决定时，可以参照预先登录有规则(变形规则)的存储器等来进行决定，该规则是生成变形音高变化模型情况下的规则。变形音高变化模型生成部232a′在进行了应生成变形音高变化模型的决定之后，参照存储在存储器(图示省略)等中的变形规则，使标准音高变化模型适当地变形。这样，变形音高变化模型生成部232a′生成图8或图9等所示的变形音高变化模型，然后将其提供给音高模型生成部236。另外，对于变形音高变化模型生成部232a′生成变形音高变化模型之后的动作，由于可以与本实施方式同样地进行说明，所以省略其说明。

(变形例3)

此外，为了通过CPU(或DSP)执行存储在ROM等存储器中的程序，以实现以上说明的语音合成装置100的各种功能，可以将上述程序记录在CD-ROM等记录介质上而颁布，或者可以经由互联网等通信网络来颁布。

Claims

1.一种音高模型生成装置，根据所输入的文本信息，生成音高模型，该音高模型表示与该文本信息对应的合成语音的音高随时间的变化，其特征在于，具有：

获取单元，针对每个音节，从上述文本信息中获取表示作为基准的音高的音高指定信息以及表示声调种类的声调信息；

存储单元，对应关联地存储声调编号、标准音高变化模型和使该标准音高变化模型变形后的变形音高变化模型；

选择单元，从所获取的音节的声调信息来确定上述声调编号，并且根据该音节前面的音节的声调信息或后续音节的声调信息，来选择与上述声调编号对应的上述标准音高变化模型或上述变形音高变化模型中的一个；以及

生成单元，根据所选择的一个音高变化模型和所获取的音节的音高指定信息，生成该音节的音高模型。

2.根据权利要求1所述的音高模型生成装置，其特征在于，在与同一声调编号对应的该标准音高变化模型和该变形音高变化模型中，起点或终点处的音高彼此不同。

3.一种音高模型生成装置，根据所输入的文本信息，生成音高模型，该音高模型表示与该文本信息对应的合成语音的音高随时间的变化，其特征在于，具有：

存储单元，对应关联地存储声调编号和标准音高变化模型；

生成单元，从所获取的音节的声调信息来确定上述声调编号，抽取出与该声调编号对应的标准音高变化模型，然后根据该音节前面的音节的声调信息或后续音节的声调信息，使抽取出的标准音高变化模型变形，由此生成变形音高变化模型；以及

生成单元，根据所生成的上述变形音高变化模型和所获取的音节的音高指定信息，生成该音节的音高模型。

4.根据权利要求3所述的音高模型生成装置，其特征在于，在与同一声调编号对应的该标准音高变化模型和该变形音高变化模型中，起点或终点处的音高彼此不同。

5.一种音高模型生成装置，根据所输入的文本信息，生成音高模型，该音高模型表示与该文本信息对应的合成语音的音高随时间的变化，其特征在于，具有：

获取单元，针对每个音节，从上述文本信息中获取表示作为基准的音高的音高指定信息；

检测单元，检测在上述各音节中是否包含重音信息；

存储单元，对应关联地存储重音记号和音高变化模型；

选择单元，对于检测出上述重音信息的音节，从该重音信息来确定上述重音记号，然后选择与该重音记号对应的音高变化模型；以及

生成单元，根据所选择的上述音高变化模型和检测出上述重音信息的音节的上述音高指定信息，生成该音节的音高模型。

6.根据权利要求5所述的音高模型生成装置，其特征在于，该音高变化模型包括表示音高逐渐上扬这样的变化的模型和表示音高逐渐下降这样的变化的模型。

7.一种音高模型生成装置，根据所输入的文本信息，生成音高模型，该音高模型表示与该文本信息对应的合成语音的音高随时间的变化，其特征在于，具有：

第一获取单元，针对每个音节，从上述文本信息中获取表示作为基准的音高的音高指定信息；

检测单元，检测在上述各音节中是否包含重音信息；

第二获取单元，对于没有检测出上述重音信息的音节，从上述文本信息中获取表示声调种类的声调信息；

第一存储单元，对应关联地存储重音记号和音高变化模型；

第二存储单元，对应关联地存储声调编号和音高变化模型；

第一选择单元，对于检测出上述重音信息的音节，从该重音信息来确定上述重音记号，然后选择与该重音记号对应的音高变化模型；

第二选择单元，对于获取了上述声调信息的音节，从所获取的音节的声调信息来确定上述声调编号，然后选择与该声调编号对应的音高变化模型；

第一生成单元，根据由上述第一选择单元所选择的音高变化模型和检测出上述重音信息的音节的上述音高指定信息，生成该音节的音高模型；以及

第二生成单元，根据由上述第二选择单元所选择的音高变化模型和获取了上述声调信息的音节的上述音高指定信息，生成该音节的音高模型。

8.根据权利要求7所述的音高模型生成装置，其特征在于，

该音高变化模型由标准音高变化模型和使该标准音高变化模型变形后的变形音高变化模型构成，

该第二选择单元根据该音节前面的音节的声调信息或后续音节的声调信息，选择与上述声调编号对应的上述标准音高变化模型或上述变形音高变化模型中的一个。

9.根据权利要求8所述的音高模型生成装置，其特征在于，在与同一声调编号对应的该标准音高变化模型和该变形音高变化模型中，起点或终点处的音高彼此不同。

10.根据权利要求7所述的音高模型生成装置，其特征在于，该音高变化模型包括表示音高逐渐上扬这样的变化的模型和表示音高逐渐下降这样的变化的模型。

11.一种音高模型生成方法，根据所输入的文本信息，生成音高模型，该音高模型表示与该文本信息对应的合成语音的音高随时间的变化，其特征在于，

对应关联地存储声调编号、标准音高变化模型和使该标准音高变化模型变形后的变形音高变化模型，

该方法具有以下过程：

获取过程，针对每个音节，从上述文本信息中获取表示作为基准的音高的音高指定信息以及表示声调种类的声调信息；

选择过程，从所获取的音节的声调信息来确定上述声调编号，并且根据该音节前面的音节的声调信息或后续音节的声调信息，来选择与上述声调编号对应的上述标准音高变化模型或上述变形音高变化模型中的一个；以及

生成过程，根据所选择的一个音高变化模型和所获取的音节的音高指定信息，生成该音节的音高模型。

12.一种音高模型生成方法，根据所输入的文本信息，生成音高模型，该音高模型表示与该文本信息对应的合成语音的音高随时间的变化，其特征在于，

对应关联地存储声调编号和标准音高变化模型，

该方法具有以下过程：

第一生成过程，从所获取的音节的声调信息来确定上述声调编号，抽取出与该声调编号对应的标准音高变化模型，然后根据该音节前面的音节的声调信息或后续音节的声调信息，使抽取出的标准音高变化模型变形，由此生成变形音高变化模型；以及

第二生成过程，根据所生成的上述变形音高变化模型和所获取的音节的音高指定信息，生成该音节的音高模型。

13.一种音高模型生成方法，根据所输入的文本信息，生成音高模型，该音高模型表示与该文本信息对应的合成语音的音高随时间的变化，其特征在于，

对应关联地存储重音记号和音高变化模型，

该方法具有以下过程：

获取过程，针对每个音节，从上述文本信息中获取表示作为基准的音高的音高指定信息；

检测过程，检测在上述各音节中是否包含重音信息；

选择过程，对于检测出上述重音信息的音节，从该重音信息来确定上述重音记号，然后选择与该重音记号对应的音高变化模型；以及

生成过程，根据所选择的上述音高变化模型和检测出上述重音信息的音节的上述音高指定信息，生成该音节的音高模型。

14.一种音高模型生成方法，根据所输入的文本信息，生成音高模型，该音高模型表示与该文本信息对应的合成语音的音高随时间的变化，其特征在于，

对应关联地存储重音记号和音高变化模型，

对应关联地存储声调编号和音高变化模型，

该方法具有以下过程：

第一获取过程，针对每个音节，从上述文本信息中获取表示作为基准的音高的音高指定信息；

检测过程，检测在上述各音节中是否包含重音信息；

第二获取过程，对于没有检测出上述重音信息的音节，从上述文本信息中获取表示声调种类的声调信息；

第一选择过程，对于检测出上述重音信息的音节，从该重音信息来确定上述重音记号，然后选择与该重音记号对应的音高变化模型；

第二选择过程，对于获取了上述声调信息的音节，从所获取的音节的声调信息来确定上述声调编号，然后选择与该声调编号对应的音高变化模型；

第一生成过程，根据由上述第一选择过程所选择的音高变化模型和检测出上述重音信息的音节的上述音高指定信息，生成该音节的音高模型；以及

第二生成过程，根据由上述第二选择过程所选择的音高变化模型和获取了上述声调信息的音节的上述音高指定信息，生成该音节的音高模型。