CN110085209A

CN110085209A - 一种音色筛选方法及装置

Info

Publication number: CN110085209A
Application number: CN201910291775.1A
Authority: CN
Inventors: 徐波
Original assignee: GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Multi Benefit Network Co Ltd; Guangzhou Duoyi Network Co Ltd
Current assignee: GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Multi Benefit Network Co Ltd; Guangzhou Duoyi Network Co Ltd
Priority date: 2019-04-11
Filing date: 2019-04-11
Publication date: 2019-08-02
Anticipated expiration: 2039-04-11
Also published as: CN110085209B

Abstract

本发明公开了一种音色筛选方法及装置，包括：根据若干个发音人的音频数据获取相应的音频向量集合；其中，音频向量集合中的每一个音频向量对应一个发音人标签；音频向量包含发音人的音色特征；根据预设的聚类算法对音频向量集合进行聚类，获得聚类结果；根据发音人标签对聚类结果中的每一个簇类进行簇标签标记；根据标记结果将聚类结果中的簇标签相同的簇类进行合并，获得合并聚类结果；其中，合并聚类结果中的簇类的数量与发音人的数量相同；计算获得合并聚类结果中的每一个簇类的错误率，并根据错误率对发音人的音色进行筛选。采用本发明能够解决多发音人语音合成系统中音色筛选过程繁琐的问题，节约时间成本和人工成本。

Description

一种音色筛选方法及装置

技术领域

本发明涉及语音合成技术领域，尤其涉及一种音色筛选方法及装置。

背景技术

在多发音人的语音合成系统中，发音人音色的差异性不同，有些发音人音色的差异性较大，有些发音人音色的差异性较小，语音合成系统难以区分音色相似的发音人，而音色相似的发音人对应的音频数据通常会相互影响，并在最终合成语音时输出混合了音色相似的发音人的音色特征的不自然音频，影响合成语音的音色质量。

为了保证合成语音的音色质量，通常的解决方式是人工试听所有发音人的音频进行筛选，但是，当发音人的数量较多时，人工试听所耗费的时间较长，人工成本较大，筛选过程繁琐。

发明内容

本发明实施例所要解决的技术问题在于，提供一种音色筛选方法及装置，能够解决多发音人语音合成系统中音色筛选过程繁琐的问题，节约时间成本和人工成本。

为了解决上述技术问题，本发明实施例提供了一种音色筛选方法，包括：

根据若干个发音人的音频数据获取相应的音频向量集合；其中，所述音频向量集合中的每一个音频向量对应一个发音人标签；所述音频向量包含发音人的音色特征；

根据预设的聚类算法对所述音频向量集合进行聚类，获得聚类结果；

根据所述发音人标签对所述聚类结果中的每一个簇类进行簇标签标记；

根据标记结果将所述聚类结果中的簇标签相同的簇类进行合并，获得合并聚类结果；其中，所述合并聚类结果中的簇类的数量与发音人的数量相同；

计算获得所述合并聚类结果中的每一个簇类的错误率，并根据所述错误率对发音人的音色进行筛选。

进一步地，所述根据所述发音人标签对所述聚类结果中的每一个簇类进行簇标签标记，具体包括：

对于任意一个簇类，根据所述发音人标签对所述簇类中的音频向量的数量进行分类统计；

根据统计结果将数量最多的音频向量对应的发音人标签作为所述簇类的簇标签。

进一步地，所述计算获得所述合并聚类结果中的每一个簇类的错误率，并根据所述错误率对发音人的音色进行筛选，具体包括：

根据统计结果以及所述簇类的簇标签计算获得不属于所述簇类的音频向量对应的错误率；

比较所述错误率与预设的错误率阈值的大小；

当所述错误率小于所述错误率阈值时，将所述簇类中的音频向量作为音色筛选结果。

进一步地，在所述计算获得所述合并聚类结果中的每一个簇类的错误率，并根据所述错误率对发音人的音色进行筛选之后，所述方法还包括：

对于所述音色筛选结果中的任意一个簇类，将所述簇类中与所述簇类的簇标签相同的发音人标签所对应的音频向量存储到预设的发音人音频向量库中；其中，所述发音人音频向量库用于为语音合成系统提供音色合格的发音人音频向量。

进一步地，所述聚类算法包括第一聚类算法和第二聚类算法；则，

所述根据预设的聚类算法对所述音频向量集合进行聚类，获得聚类结果，具体包括：

根据所述第一聚类算法和所述第二聚类算法分别对所述音频向量集合进行聚类，对应获得第一聚类结果和第二聚类结果；

所述根据所述发音人标签对所述聚类结果中的每一个簇类进行簇标签标记，具体包括：

根据所述发音人标签分别对所述第一聚类结果和所述第二聚类结果中的每一个簇类进行簇标签标记；

所述根据标记结果将所述聚类结果中的簇标签相同的簇类进行合并，获得合并聚类结果，具体包括：

根据标记结果分别将所述第一聚类结果和所述第二聚类结果中的簇标签相同的簇类进行合并，对应获得第一合并聚类结果和第二合并聚类结果；

所述计算获得所述合并聚类结果中的每一个簇类的错误率，并根据所述错误率对发音人的音色进行筛选，具体包括：

计算获得所述第一合并聚类结果中的每一个簇类的第一错误率以及所述第二合并聚类结果中的每一个簇类的第二错误率；

根据簇标签相同的簇类对应的第一错误率和第二错误率对发音人的音色进行筛选。

进一步地，所述根据簇标签相同的簇类对应的第一错误率和第二错误率对发音人的音色进行筛选，具体包括：

根据所述第一错误率和所述第二错误率通过以下公式计算获得综合错误率：

综合错误率＝p*第一错误率+q*第二错误率；

其中，p和q为权重因子，p+q＝1；

比较所述综合错误率与预设的综合错误率阈值的大小；

当所述综合错误率小于所述综合错误率阈值时，将所述第一错误率对应的簇类中的音频向量和所述第二错误率对应的簇类中的音频向量作为音色筛选结果。

进一步地，所述第一聚类算法为Single-Pass聚类算法；所述第二聚类算法为DBSCAN聚类算法。

进一步地，在所述根据若干个发音人的音频数据获取相应的音频向量集合之后，所述方法还包括：

根据t-SNE算法对所述音频向量集合进行降维处理，获得低维音频向量集合；则，

根据预设的聚类算法对所述低维音频向量集合进行聚类，获得聚类结果。

为了解决上述技术问题，本发明实施例还提供了一种音色筛选装置，包括：

向量获取模块，用于根据若干个发音人的音频数据获取相应的音频向量集合；其中，所述音频向量集合中的每一个音频向量对应一个发音人标签；所述音频向量包含发音人的音色特征；

聚类模块，用于根据预设的聚类算法对所述音频向量集合进行聚类，获得聚类结果；

标记模块，用于根据所述发音人标签对所述聚类结果中的每一个簇类进行簇标签标记；

合并模块，用于根据标记结果将所述聚类结果中的簇标签相同的簇类进行合并，获得合并聚类结果；其中，所述合并聚类结果中的簇类的数量与发音人的数量相同；以及，

筛选模块，用于计算获得所述合并聚类结果中的每一个簇类的错误率，并根据所述错误率对发音人的音色进行筛选。

为了解决上述技术问题，本发明实施例还提供了一种音色筛选装置，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器在执行所述计算机程序时实现上述任一项所述的音色筛选方法。

与现有技术相比，本发明实施例提供了一种音色筛选方法及装置，根据若干个发音人的音频数据获取相应的音频向量集合，通过对音频向量集合进行聚类，并对聚类结果进行标记及合并处理，以计算出每一个簇类的错误率，从而根据错误率对发音人的音色进行筛选，能够解决多发音人语音合成系统中音色筛选过程繁琐的问题，节约时间成本和人工成本。

附图说明

图1是本发明提供的一种音色筛选方法的一个优选实施例的流程图；

图2是本发明提供的一种音色筛选方法的另一个优选实施例的流程图；

图3是本发明提供的一种音色筛选装置的一个优选实施例的结构框图；

图4是本发明提供的一种音色筛选装置的另一个优选实施例的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本技术领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种音色筛选方法，参见图1所示，是本发明提供的一种音色筛选方法的一个优选实施例的流程图，所述方法包括步骤S11至步骤S15：

步骤S11、根据若干个发音人的音频数据获取相应的音频向量集合；其中，所述音频向量集合中的每一个音频向量对应一个发音人标签；所述音频向量包含发音人的音色特征；

步骤S12、根据预设的聚类算法对所述音频向量集合进行聚类，获得聚类结果；

步骤S13、根据所述发音人标签对所述聚类结果中的每一个簇类进行簇标签标记；

步骤S14、根据标记结果将所述聚类结果中的簇标签相同的簇类进行合并，获得合并聚类结果；其中，所述合并聚类结果中的簇类的数量与发音人的数量相同；

步骤S15、计算获得所述合并聚类结果中的每一个簇类的错误率，并根据所述错误率对发音人的音色进行筛选。

具体的，步骤S11根据待处理的若干个发音人的音频数据获取相应的音频向量集合，由于同一个发音人的音频数据中包含不同的韵律信息，同一个发音人可能对应不止一个音频向量，该音频向量集合中包含了每一个发音人的至少一个音频向量，每一个音频向量都对应一个发音人标签(例如发音人ID)以指向该音频向量所对应的发音人，以发音人的音频数据作为发音人的音色特征，每一个音频向量都包含了对应的发音人的音色特征；在获得该音频向量集合之后，步骤S12根据预先设置的聚类算法对该音频向量集合进行聚类处理，相应获得聚类结果，聚类所使用的数据是音频向量集合中的所有的音频向量，聚类结果就是这些音频向量以及每一个音频向量所属的簇类，因此可以通过聚类算法将所有的音频向量划分为一定数量(具体的数量由聚类算法决定)的簇类，并且每一个簇类中均包括至少一个音频向量；步骤S13根据音频向量对应的发音人标签对聚类结果中的每一个簇类进行簇标签标记，优选地，对于任意一个簇类，由于每一个音频向量都对应一个发音人标签，可以直接以该簇类中的符合一定条件的音频向量所对应的发音人标签作为该簇类的簇标签，从而为聚类结果中的每一个簇类标记簇标签；步骤S14根据标记结果将聚类结果中的簇标签相同的簇类进行合并，合并后的簇类保留相同的簇标签，相应获得合并聚类结果，合并聚类结果中的簇类的数量与发音人的数量相同；步骤S15根据合并聚类结果中的每一个簇类所包含的音频向量以及每一个音频向量所对应的发音人标签，计算获得每一个簇类对应的错误率，并根据该错误率对发音人的音色进行筛选，从合并聚类结果的所有簇类中筛选音色合格的簇类。

在具体应用时，例如，有3个发音人，对应的发音人的音频向量集合为S＝{s1，s2，……，sn}，n≥3，聚类结果为{(s1，1)，(s2，2)，(s3，1)，(s4，3)，……，(sn，5)}，表示音频向量s1被聚类到第1个簇类，音频向量s2被聚类到第2个簇类，音频向量s3被聚类到第1个簇类，音频向量s4被聚类到第3个簇类，……，音频向量sn被聚类到第5个簇类，聚类结果划分出的簇类的数量是5个，根据每一个簇类中的音频向量所对应的发音人标签对每一个簇类进行簇标签标记，加入第1个簇类的簇标签为发音人1，第2个簇类的簇标签为发音人2，第3个簇类的簇标签为发音人1，第4个簇类的簇标签为发音人3，第5个簇类的簇标签为发音人2，由于第1个簇类和第3个簇类的簇标签相同，都是发音人1，则将第1个簇类和第3个簇类合并为1个簇类，并且该合并簇类的簇标签仍然为发音人1，同理，将第2个簇类和第3个簇类合并为2个簇类合并为1个簇类，该合并簇类的簇标签为发音人2，最终的合并聚类结果中包括3个簇类，与发音人的数量相同，根据这3个簇类中所包含的音频向量以及每一个音频向量所对应的发音人标签，分别计算获得这3个簇类所对应的3个错误率，并根据这3个错误率对发音人的音色进行筛选，从合并聚类结果的3个簇类中筛选音色合格的发音人的音频向量，假如第2个簇类所对应的错误率符合一定的条件，则第2个簇类即为筛选结果，表示第2个簇类中的音频向量为音色合格的发音人的音频向量。

需要说明的是，本发明实施例通过预先训练的发音人向量模型(例如CNN+LSTM的深度神经网络模型)根据若干个发音人的音频数据获取相应的音频向量集合。

本发明实施例所提供的一种音色筛选方法，能够自动筛选出音色合格的发音人的音频向量，无需人工试听，从而解决了多发音人语音合成系统中音色筛选过程繁琐的问题，并且节约了时间成本和人工成本，同时，根据筛选出的音频向量进行语音合成，提高了语音合成系统中音色控制的可行性和科学性，对于发音人的韵律控制方面，也可以自动筛选出能有效控制韵律的音频向量。

作为优选方案，所述根据所述发音人标签对所述聚类结果中的每一个簇类进行簇标签标记，具体包括：

具体的，结合上述实施例，聚类结果中的每一个簇类均包括至少一个音频向量，每一个音频向量都对应一个发音人标签，在对每一个簇类进行簇标签标记时，可以根据簇类中的每一个音频向量对应的发音人标签对该簇类中的所有的音频向量的数量进行分类统计，将发音人标签相同的音频向量分为一类，并统计数量，将数量最多的音频向量所对应的发音人标签作为该簇类的簇标签。

例如，某一个簇类中共有100个音频向量，音频向量对应的发音人标签有发音人1和发音人2，其中，80个音频向量的发音人标签都是发音人1，20个音频向量的发音人标签都是发音人2，则将发音人1作为该簇类的簇标签。

需要说明的是，簇标签可以直接标记为发音人标签，也可以标记为其他能够指向发音人或者与发音人有确定的对应关系的标签，本发明实施例不作具体限定。

作为优选方案，所述计算获得所述合并聚类结果中的每一个簇类的错误率，并根据所述错误率对发音人的音色进行筛选，具体包括：

比较所述错误率与预设的错误率阈值的大小；

具体的，结合上述实施例，合并聚类结果中的每一个簇类均包括至少一个音频向量，每一个音频向量都对应一个发音人标签，在对每一个簇类进行错误率计算时，可以根据簇类中的每一个音频向量对应的发音人标签对该簇类中的所有的音频向量的数量进行分类统计，将发音人标签相同的音频向量分为一类，并统计数量，根据统计结果确认与该簇类的簇标签不相同发音人标签所对应的音频向量，这些音频向量即为不属于该簇类的音频向量，根据不属于该簇类的音频向量的数量以及该簇类中的所有的音频向量的数量计算获得该簇类对应的错误率，将该错误率与预先设置的错误率阈值进行比较，当该错误率小于预先设置的错误率阈值时，将该簇类作为音色筛选结果；同理，对于合并聚类结果中的每一个簇类，均可以根据相应的错误率判断是否小于预先设置的错误率阈值，从而将所有的小于预先设置的错误率阈值的错误率所对应的簇类从合并聚类结果中筛选出来，筛选出的簇类中的音频向量即为音色合格的发音人的音频向量。

可以理解的，当某一个簇类对应的错误率不小于预先设置的错误率阈值时，该簇类中的音频向量不合格，则将该簇类丢弃。

例如，某一个簇类中共有100个音频向量，该簇类的簇标签为发音人1，音频向量对应的发音人标签有发音人1和发音人2，其中，80个音频向量的发音人标签都是发音人1，20个音频向量的发音人标签都是发音人2，则该簇类对应的错误率为20％。

作为优选方案，在所述计算获得所述合并聚类结果中的每一个簇类的错误率，并根据所述错误率对发音人的音色进行筛选之后，所述方法还包括：

具体的，结合上述实施例，在筛选出音色合格的簇类之后，由于错误率不一定为0％，即簇类中可能包括一部分数量较大的音频向量，这部分音频向量对应的发音人标签与簇标签相同，簇类中还包括一部分数量较小的音频向量，这部分音频向量对应的发音人标签与簇标签不相同，则将簇类中与簇标签相同的发音人标签所对应的所有的音频向量存储到预先设置的发音人音频向量库中，以为语音合成系统提供音色合格的发音人音频向量。

需要说明的是，发音人音频向量库中存储的音频向量会输入到预先训练的语音合成模型(例如Tacotron模型)中，用于合成音频。

需要补充说明的是，对于语音合成模型和上述实施例中的发音人向量模型，具体的训练过程为：

(1)收集多个发音人数据(<音频，频谱，文本>的形式)；其中，频谱是音频经过傅立叶变换转换来的，因此收集发音人数据只需要收集音频和对应的文本，频谱是后续处理生成的；

(2)在发音人向量模型的输入端输入频谱，发音人向量模型的输出端输出相应的音频向量，采用本发明实施例所提供的音色筛选方法对音频向量进行音色筛选，并将合格的音频向量存储到发音人音频向量库中；在语音合成模型的输入端输入文本，将发音人音频向量库中存储的音频向量作为语音合成模型的另一输入，语音合成模型的输出作为合成音频；

(3)将输出的合成音频和原始音频进行比较，计算误差，通过反向传播机制对两个模型的参数进行优化更新；

(4)重复步骤(2)和(3)，直到模型收敛为止。

另外，由于刚开始的时候发音人音频向量库是空的，所以第一次进行模型训练后筛选出来的合格的音频向量全部添加到发音人音频向量库里，后续迭代更新模型的时候由于模型参数发生变化，发音人音频向量库里存储的有些音频向量对模型的影响(这个影响是指音频向量对模型合成音频的音色的影响)可能也发生变化，再次进行筛选时，这些变成不合格的音频向量(是否合格根据本发明实施例所提供的音色筛选的结果进行判断)需要从发音人音频向量库中删除。

可以理解的，以频谱作为输入的发音人向量模型的输出是发音人的音频向量，经过筛选后，合格的音频向量会输入到语音合成模型的中间部分，主要用来控制语音合成获得的合成音频的音色，因此也可以将语音合成模型和发音人向量模型看成是一个整体的模型。

参见图2所示，是本发明提供的一种音色筛选方法的另一个优选实施例的流程图，在另一个优选实施例中，所述聚类算法包括第一聚类算法和第二聚类算法；则，

步骤S12’、根据所述第一聚类算法和所述第二聚类算法分别对所述音频向量集合进行聚类，对应获得第一聚类结果和第二聚类结果；

步骤S13’、根据所述发音人标签分别对所述第一聚类结果和所述第二聚类结果中的每一个簇类进行簇标签标记；

步骤S14’、根据标记结果分别将所述第一聚类结果和所述第二聚类结果中的簇标签相同的簇类进行合并，对应获得第一合并聚类结果和第二合并聚类结果；

步骤S15’、计算获得所述第一合并聚类结果中的每一个簇类的第一错误率以及所述第二合并聚类结果中的每一个簇类的第二错误率；

步骤S16’、根据簇标签相同的簇类对应的第一错误率和第二错误率对发音人的音色进行筛选。

具体的，结合上述实施例，在获得音频向量集合之后，由于预先设置的聚类算法包括第一聚类算法和第二聚类算法，则根据第一聚类算法和第二聚类算法分别对该音频向量集合进行聚类处理，对应获得第一聚类结果和第二聚类结果，与上述实施例同理，根据音频向量对应的发音人标签对第一聚类结果和第二聚类结果中的每一个簇类进行簇标签标记，优选地，可以直接以该簇类中的数量最多的音频向量所对应的发音人标签作为该簇类的簇标签，从而为第一聚类结果和第二聚类结果中的每一个簇类标记簇标签；根据标记结果分别将第一聚类结果和第二聚类结果中的簇标签相同的簇类进行合并，合并后的簇类保留相同的簇标签，对应获得第一合并聚类结果和第二合并聚类结果，第一合并聚类结果中的簇类的数量、第二合并聚类结果中的簇类的数量均与发音人的数量相同；根据第一合并聚类结果和第二合并聚类结果中的每一个簇类所包含的音频向量以及每一个音频向量所对应的发音人标签，分别计算获得第一合并聚类结果中的每一个簇类对应的第一错误率以及第二合并聚类结果中的每一个簇类对应的第二错误率，并根据第一合并聚类结果和第二合并聚类结果中簇标签相同的簇类所对应的第一错误率和第二错误率对发音人的音色进行筛选，从第一合并聚类结果和第二合并聚类结果的所有簇类中筛选音色合格的簇类。

作为优选方案，所述根据簇标签相同的簇类对应的第一错误率和第二错误率对发音人的音色进行筛选，具体包括：

综合错误率＝p*第一错误率+q*第二错误率；

其中，p和q为权重因子，p+q＝1；

比较所述综合错误率与预设的综合错误率阈值的大小；

具体的，结合上述实施例，根据公式：综合错误率＝p*第一错误率+q*第二错误率，可以计算获得第一合并聚类结果和第二合并聚类结果中簇标签相同的簇类所对应的综合错误率，将该综合错误率与预先设置的综合错误率阈值进行比较，当该综合错误率小于预先设置的综合错误率阈值时，将与该综合错误率对应的第一合并聚类结果和第二合并聚类结果中簇标签相同的簇类作为音色筛选结果。

其中，p和q为权重因子，是常数，例如，取p＝0.7，q＝0.3，则综合错误率＝0.7*第一错误率+0.3*第二错误率。

作为优选方案，所述第一聚类算法为Single-Pass聚类算法；所述第二聚类算法为DBSCAN聚类算法。

需要说明的是，使用基于距离的Single-Pass聚类算法对音频向量集合进行聚类，其中，距离阈值θ的设定方法为：在音频向量集合中随机选取两个音频向量计算获得欧式距离d，重复选取计算步骤T次，记发音人的数量为N，则距离阈值

在又一个优选实施例中，在所述根据若干个发音人的音频数据获取相应的音频向量集合之后，所述方法还包括：

可以理解的，结合上述实施例，在获得音频向量集合之后，由于发音人的音频向量维度较高，而音频向量集合的大小和发音人的数量正相关，直接进行聚类将消耗大量的资源，因此可以在聚类之前先对音频向量进行降维处理，为了尽量保留原始音频向量的信息，本发明实施例使用可以保持局部结构的t-SNE算法对音频向量集合中的所有的音频向量进行降维处理，获得相应的维音频向量集合之后，再根据预先设置的聚类算法对该低维音频向量集合进行聚类处理，相应获得聚类结果。

本发明实施例还提供了一种音色筛选装置，能够实现上述任一实施例所述的音色筛选方法的所有流程，装置中的各个模块、单元的作用以及实现的技术效果分别与上述实施例所述的音色筛选方法的作用以及实现的技术效果对应相同，这里不再赘述。

参见图3所示，是本发明提供的一种音色筛选装置的一个优选实施例的结构框图，所述装置包括：

向量获取模块11，用于根据若干个发音人的音频数据获取相应的音频向量集合；其中，所述音频向量集合中的每一个音频向量对应一个发音人标签；所述音频向量包含发音人的音色特征；

聚类模块12，用于根据预设的聚类算法对所述音频向量集合进行聚类，获得聚类结果；

标记模块13，用于根据所述发音人标签对所述聚类结果中的每一个簇类进行簇标签标记；

合并模块14，用于根据标记结果将所述聚类结果中的簇标签相同的簇类进行合并，获得合并聚类结果；其中，所述合并聚类结果中的簇类的数量与发音人的数量相同；以及，

筛选模块15，用于计算获得所述合并聚类结果中的每一个簇类的错误率，并根据所述错误率对发音人的音色进行筛选。

优选地，所述标记模块13具体包括：

第一数量统计单元，用于对于任意一个簇类，根据所述发音人标签对所述簇类中的音频向量的数量进行分类统计；

标记单元，用于根据统计结果将数量最多的音频向量对应的发音人标签作为所述簇类的簇标签。

优选地，所述筛选模块15具体包括：

第二数量统计单元，用于对于任意一个簇类，根据所述发音人标签对所述簇类中的音频向量的数量进行分类统计；

第一错误率计算单元，用于根据统计结果以及所述簇类的簇标签计算获得不属于所述簇类的音频向量对应的错误率；

第一比较单元，用于比较所述错误率与预设的错误率阈值的大小；

第一筛选单元，用于当所述错误率小于所述错误率阈值时，将所述簇类中的音频向量作为音色筛选结果。

优选地，所述装置还包括：

存储单元，用于对于所述音色筛选结果中的任意一个簇类，将所述簇类中与所述簇类的簇标签相同的发音人标签所对应的音频向量存储到预设的发音人音频向量库中；其中，所述发音人音频向量库用于为语音合成系统提供音色合格的发音人音频向量。

优选地，所述聚类算法包括第一聚类算法和第二聚类算法；则，

所述聚类模块12具体用于：

所述标记模块13具体用于：

所述合并模块14具体用于：

所述筛选模块15具体包括：

第二错误率计算单元，用于计算获得所述第一合并聚类结果中的每一个簇类的第一错误率以及所述第二合并聚类结果中的每一个簇类的第二错误率；

第二筛选单元，用于根据簇标签相同的簇类对应的第一错误率和第二错误率对发音人的音色进行筛选。

优选地，所述第二筛选单元具体用于：

综合错误率＝p*第一错误率+q*第二错误率；

其中，p和q为权重因子，p+q＝1；

比较所述综合错误率与预设的综合错误率阈值的大小；

优选地，所述第一聚类算法为Single-Pass聚类算法；所述第二聚类算法为DBSCAN聚类算法。

优选地，所述装置还包括：

降维模块，用于根据t-SNE算法对所述音频向量集合进行降维处理，获得低维音频向量集合；则，

所述聚类模块具体用于：

本发明实施例还提供了一种音色筛选装置，参见图4所示，是本发明提供的一种音色筛选装置的另一个优选实施例的结构框图，所述装置包括处理器10、存储器20以及存储在所述存储器20中且被配置为由所述处理器10执行的计算机程序，所述处理器10在执行所述计算机程序时实现上述任一实施例所述的音色筛选方法。

优选地，所述计算机程序可以被分割成一个或多个模块/单元(如计算机程序1、计算机程序2、······)，所述一个或者多个模块/单元被存储在所述存储器20中，并由所述处理器10执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述装置中的执行过程。

所述处理器10可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，通用处理器可以是微处理器，或者所述处理器10也可以是任何常规的处理器，所述处理器10是所述装置的控制中心，利用各种接口和线路连接所述装置的各个部分。

所述存储器20主要包括程序存储区和数据存储区，其中，程序存储区可存储操作系统、至少一个功能所需的应用程序等，数据存储区可存储相关数据等。此外，所述存储器20可以是高速随机存取存储器，还可以是非易失性存储器，例如插接式硬盘，智能存储卡(Smart Media Card，SMC)、安全数字(Secure Digital，SD)卡和闪存卡(Flash Card)等，或所述存储器20也可以是其他易失性固态存储器件。

需要说明的是，上述装置可包括，但不仅限于，处理器、存储器，本领域技术人员可以理解，图4结构框图仅仅是上述装置的示例，并不构成对装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

综上，本发明实施例所提供的一种音色筛选方法及装置，能够自动筛选出音色合格的发音人的音频向量，无需人工试听，从而解决了多发音人语音合成系统中音色筛选过程繁琐的问题，并且节约了时间成本和人工成本，同时，根据筛选出的音频向量进行语音合成，提高了语音合成系统中音色控制的可行性和科学性，对于发音人的韵律控制方面，也可以自动筛选出能有效控制韵律的音频向量。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种音色筛选方法，其特征在于，包括：

2.如权利要求1所述的音色筛选方法，其特征在于，所述根据所述发音人标签对所述聚类结果中的每一个簇类进行簇标签标记，具体包括：

3.如权利要求1所述的音色筛选方法，其特征在于，所述计算获得所述合并聚类结果中的每一个簇类的错误率，并根据所述错误率对发音人的音色进行筛选，具体包括：

比较所述错误率与预设的错误率阈值的大小；

4.如权利要求3所述的音色筛选方法，其特征在于，在所述计算获得所述合并聚类结果中的每一个簇类的错误率，并根据所述错误率对发音人的音色进行筛选之后，所述方法还包括：

5.如权利要求1所述的音色筛选方法，其特征在于，所述聚类算法包括第一聚类算法和第二聚类算法；则，

6.如权利要求5所述的音色筛选方法，其特征在于，所述根据簇标签相同的簇类对应的第一错误率和第二错误率对发音人的音色进行筛选，具体包括：

综合错误率＝p*第一错误率+q*第二错误率；

其中，p和q为权重因子，p+q＝1；

比较所述综合错误率与预设的综合错误率阈值的大小；

7.如权利要求5所述的音色筛选方法，其特征在于，所述第一聚类算法为Single-Pass聚类算法；所述第二聚类算法为DBSCAN聚类算法。

8.如权利要求1～7任一项所述的音色筛选方法，其特征在于，在所述根据若干个发音人的音频数据获取相应的音频向量集合之后，所述方法还包括：

9.一种音色筛选装置，其特征在于，包括：

10.一种音色筛选装置，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器在执行所述计算机程序时实现如权利要求1～8任一项所述的音色筛选方法。