CN105336321B

CN105336321B - 用于语音合成的音子切分方法和装置

Info

Publication number: CN105336321B
Application number: CN201510623958.0A
Authority: CN
Inventors: 张辉; 李秀林
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-09-25
Filing date: 2015-09-25
Publication date: 2016-10-19
Anticipated expiration: 2035-09-25
Also published as: CN105336321A

Abstract

本发明公开了一种用于语音合成的音子切分方法和装置，其中，用于语音合成的音子切分方法，包括：获取语料文本，并将语料文本转换为拼音序列，其中拼音序列包括多个音子，每个音子具有多个状态；将拼音序列对应的语音数据切分为多个语音帧，并获取语音帧的声学特征；针对每个状态，根据声学特征对语音帧进行聚类，并生成状态对应的多个节点；以及基于动态规划算法和二维状态网络计算出拼音序列对应的最优路径，并根据最优路径切分拼音序列。本发明实施例的用于语音合成的音子切分方法和装置，提高了切分拼音序列的准确性，进而提高了语音合成的声学模型可靠性，最终使文语转换的语音更加流畅自然。

Description

用于语音合成的音子切分方法和装置

技术领域

本发明涉及文语转换技术领域，尤其涉及一种用于语音合成的音子切分方法和装置。

背景技术

语音合成，又称文语转换技术，是一种能够将文字信息转化为语音并朗读的技术。语音合成系统性能的主要评价指标主要包括可懂度和流畅度两方面。现有的语音合成系统在可懂度方面已经基本成熟，但是在流畅度方面和人们真实的发音仍然存在一定的差距。为了能够合成更加流畅自然的语音，则需要对音子(比如声母、韵母)的切分具有很高的准确性。如果音子切分错误，可能导致建立的声学模型不可靠，进而导致合成语音时获取到错误的语音片段。

在数据规模较小时，人工切分是最可靠的。但随着数据规模的增大，人工切分需要的时间越来越长、成本越来越高，采用人工切分方法无法满足快速和低成本构建特色语音合成系统的需求。因此，需要采用自动切分音子的办法。

目前，主要基于隐马尔可夫声学模型对音子进行切分，首先将训练语料转换为文本，再将文本转换为一维的状态序列，然后根据维特比算法得到最优路径，再从最优路径中获取每个语音帧对应的状态结果，最后根据状态结果对音子进行切分。

但是，当语料中存在有例如吸气、清嗓子等用单个节点无法准确描述的发音时，上述方法可能会出现切分错误。例如：将吸气对应的发音与它后面的辅音切分成一个语音片段，如图1所示，被圈中的语音片段为吸气的发音，与辅音r一起，被误切分为同一个语音片段。更严重的，很可能造成跨音子切分错误，即切分给某个音子的语音片段是属于其他音子的。上述错误会造成语音合成系统的性能严重下降。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的一个目的在于提出一种用于语音合成的音子切分方法，能够提高切分拼音序列的准确性。

本发明的第二个目的在于提出一种用于语音合成的音子切分装置。

为了实现上述目的，本发明第一方面实施例提出了一种用于语音合成的音子切分方法，包括：获取语料文本，并将所述语料文本转换为拼音序列，其中所述拼音序列包括多个音子，每个所述音子具有多个状态；将所述拼音序列对应的语音数据切分为多个语音帧，并获取所述语音帧的声学特征；针对每个所述状态，根据所述声学特征对所述语音帧进行聚类，并生成所述状态对应的多个所述节点；以及基于动态规划算法计算出所述拼音序列对应的最优路径，并根据所述最优路径切分所述拼音序列。

本发明实施例的用于语音合成的音子切分方法，通过获取语料文本，并将语料文本转换为拼音序列，以及将拼音序列对应的语音数据切分为多个语音帧，并获取语音帧的声学特征，并针对每个状态，根据声学特征对语音帧进行聚类，并生成状态对应的多个节点，以及基于动态规划算法计算出拼音序列对应的最优路径，并根据最优路径切分拼音序列，提高了切分拼音序列的准确性，进而提高了语音合成的声学模型可靠性，最终使文语转换的语音更加流畅自然。

本发明第二方面实施例提出了一种用于语音合成的音子切分装置，包括：转换模块，用于获取语料文本，并将所述语料文本转换为拼音序列，其中所述拼音序列包括多个音子，每个所述音子具有多个状态；处理模块，用于将所述拼音序列对应的语音数据切分为多个语音帧，并获取所述语音帧的声学特征；生成模块，用于针对每个所述状态，根据所述声学特征对所述语音帧进行聚类，并生成所述状态对应的多个所述节点；以及切分模块，用于基于动态规划算法计算出所述拼音序列对应的最优路径，并根据所述最优路径切分所述拼音序列。

本发明实施例的用于语音合成的音子切分装置，通过获取语料文本，并将语料文本转换为拼音序列，以及将拼音序列对应的语音数据切分为多个语音帧，并获取语音帧的声学特征，并针对每个状态，根据声学特征对语音帧进行聚类，并生成状态对应的多个节点，以及基于动态规划算法计算出拼音序列对应的最优路径，并根据最优路径切分拼音序列，提高了切分拼音序列的准确性，进而提高了语音合成的声学模型可靠性，最终使文语转换的语音更加流畅自然。

附图说明

图1是现有技术中切分错误的效果示意图；

图2是根据本发明一个实施例的用于语音合成的音子切分方法的流程图；

图3是针对某一状态生成对应的多个节点的效果示意图；

图4是组成二维状态网络的效果示意图；

图5是最优路径的效果示意图；

图6是根据本发明一个实施例的切分音子效果示意图。

图7是根据本发明一个实施例的用于语音合成的音子切分装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的用于语音合成的音子切分方法和装置。

图2是根据本发明一个实施例的用于语音合成的音子切分方法的流程图。

如图2所示，用于语音合成的音子切分方法可包括：

S1、获取语料文本，并将语料文本转换为拼音序列。

具体地，可从语料库中获取训练语料，再将训练语料转换为对应的语料文本，然后将语料文本转换为拼音序列。其中，语料库中保存了海量的录音数据即训练语料，用于训练语音合成系统。举例来说，训练语料为“他已经三天没吃过东西了，如果今天…”，可将其转换成对应的语料文本，然后再转换为拼音序列“tayijingsantianmeichiguodongxilesplruguojintian”。其中，拼音序列是由声母、韵母等音子组成的，其中spl代表静音音子。而每个音子又对应多个状态，例如：ing这个音子可具有3个状态。

S2、将拼音序列对应的语音数据切分为多个语音帧，并获取语音帧的声学特征。

拼音序列对应的语音数据，可按照一定的时间间隔例如5毫秒切分成多个语音帧，然后获取上述语音帧的声学特征。

S3、针对每个状态，根据声学特征对语音帧进行聚类，并生成状态对应的多个节点。

具体地，针对拼音序列中的某一音子中的某一状态，可利用高斯模型描述声学特征，并将声学特征相似的语音帧进行聚类，从而生成与该状态对应的多个节点。如图3所示，某个音子具有3个状态1、2、3，状态2可对应3个节点，节点A、节点B和节点C。

S4、基于动态规划算法计算出拼音序列对应的最优路径，并根据最优路径切分拼音序列。

具体地，可按照时间先后顺序将每个状态的多个节点组成一个二维状态网络，然后可基于动态规划算法从二维状态网络中选取最优路径。其中，动态规划算法可包括维特比算法。举例来说，如图4所示，A2和A3为一个音子的第二个和第三个状态，B1为下一音子的第一个状态，其中，A2和A3均具有三个节点，B1具有一个节点，可按照时间先后顺序将上述节点组成一个二维状态网络，即从节点A2至节点B1的所有路径。然后，通过维特比算法选取出最优路径，如图4中粗箭头表示的路径。

在确定出最优路径之后，可根据最优路径获得每个语音帧对应的状态结果，然后根据状态结果切分拼音序列。举例来说，如图5所示，横轴t表示帧数，纵轴i表示拼音序列，通过横轴与纵轴的交叉点，选取的粗曲线表示最优路径，其中，第1语音帧和第2语音帧对应的状态结果为A2，第3语音帧、第4语音帧和第5语音帧对应的状态结果为A3，第6语音帧和第7语音帧对应的状态结果为B1，而A2和A3属于同一音子，因此从t＝5处切分拼音序列。具体切分效果可如图6描述的例子所示，将表示吸气的语音片段切分到spl这个音子中，避免了图1所示的误切分的情况的发生。

如图7所示，用于语音合成的音子切分装置可包括：转换模块110、处理模块120、生成模块130和切分模块140。

转换模块110用于获取语料文本，并将语料文本转换为拼音序列。

具体地，转换模块110可从语料库中获取训练语料，再将训练语料转换为对应的语料文本，然后将语料文本转换为拼音序列。其中，语料库中保存了海量的录音数据即训练语料，用于训练语音合成系统。举例来说，训练语料为“他已经三天没吃过东西了，如果今天…”，可将其转换成对应的语料文本，然后再转换为拼音序列“tayijingsantianmeichiguodongxilesplruguojintian”。其中，拼音序列是由声母、韵母等音子组成的，其中spl代表静音音子。而每个音子又对应多个状态，例如：ing这个音子可具有3个状态。

处理模块120用于将拼音序列对应的语音数据切分为多个语音帧，并获取语音帧的声学特征。

由于拼音序列对应的语音数据是具有前后顺序的，因此处理模块120可按照一定的时间间隔例如5毫秒将拼音序列对应的语音数据切分成多个语音帧，然后获取上述语音帧的声学特征。

生成模块130用于针对每个状态，根据声学特征对语音帧进行聚类，并生成状态对应的多个节点。

具体地，针对拼音序列中的某一音子中的某一状态，生成模块130可利用高斯模型描述声学特征，并将声学特征相似的语音帧进行聚类，从而生成与该状态对应的多个节点。如图3所示，某个音子具有3个状态1、2、3，状态2可对应3个节点，节点A、节点B和节点C。

切分模块140用于基于动态规划算法计算出拼音序列对应的最优路径，并根据最优路径切分拼音序列。

具体地，切分模块140可按照时间先后顺序将每个状态的多个节点组成一个二维状态网络，然后可基于动态规划算法从二维状态网络中选取最优路径。其中，动态规划算法可包括维特比算法。举例来说，如图4所示，A2和A3为一个音子的第二个和第三个状态，B1为下一音子的第一个状态，其中，A2和A3均具有三个节点，B1具有一个节点，可按照时间先后顺序将上述节点组成一个二维状态网络，即从节点A2至节点B1的所有路径。然后，通过维特比算法选取出最优路径。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种用于语音合成的音子切分方法，其特征在于，包括：

获取语料文本，并将所述语料文本转换为拼音序列，其中所述拼音序列包括多个音子，每个所述音子具有多个状态；

将所述拼音序列对应的语音数据切分为多个语音帧，并获取所述语音帧的声学特征；

针对每个所述状态，根据所述声学特征对所述语音帧进行聚类，并生成所述状态对应的多个节点；以及

基于动态规划算法计算出所述拼音序列对应的最优路径，并根据所述最优路径切分所述拼音序列。

2.如权利要求1所述的方法，其特征在于，所述基于动态规划算法计算出所述拼音序列对应的最优路径，包括：

按照时间先后顺序将每个所述状态的多个所述节点组成二维状态网络；

基于动态规划算法从所述二维状态网络中选取所述最优路径。

3.如权利要求1所述的方法，其特征在于，所述根据所述声学特征对所述语音帧进行聚类，包括：

利用高斯模型描述所述声学特征，并将声学特征相似的语音帧进行聚类。

4.如权利要求1所述的方法，其特征在于，所述根据所述最优路径切分所述拼音序列，包括：

根据所述最优路径获得每个所述语音帧对应的状态结果，并根据所述状态结果切分所述拼音序列。

5.如权利要求1所述的方法，其特征在于，所述动态规划算法包括维特比算法。

6.一种用于语音合成的音子切分装置，其特征在于，包括：

转换模块，用于获取语料文本，并将所述语料文本转换为拼音序列，其中所述拼音序列包括多个音子，每个所述音子具有多个状态；

处理模块，用于将所述拼音序列对应的语音数据切分为多个语音帧，并获取所述语音帧的声学特征；

生成模块，用于针对每个所述状态，根据所述声学特征对所述语音帧进行聚类，并生成所述状态对应的多个节点；以及

切分模块，用于基于动态规划算法计算出所述拼音序列对应的最优路径，并根据所述最优路径切分所述拼音序列。

7.如权利要求6所述的装置，其特征在于，所述切分模块，具体用于：

8.如权利要求6所述的装置，其特征在于，所述生成模块，具体用于：

9.如权利要求6所述的装置，其特征在于，所述切分模块，具体用于：

10.如权利要求6所述的装置，其特征在于，所述动态规划算法包括维特比算法。